1 / 27

大 数据 (big data)

大 数据 (big data). 什么是大数据?. 具有 4V 特性 的数据: Volume ( 巨大的数据量 ): Variety ( 数据类型多 ): 文本 / 图片 / 视频 等非结构化 / 半结构化数据 Velocity ( 处理速度快 ): 要求系统 在短时间内做出反应 Value ( 价值密度低 ): 单条数据无价值 , 无用数据多 , 综合价值大. 3 亿用户 , 每天上亿条微博. 巡天望远镜 , 已收集 140 兆兆字节数据. 2015 年全球移动终端产生的数据量 6300PB. 案例

teenie
Download Presentation

大 数据 (big data)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 大数据(big data)

  2. 什么是大数据? 具有4V特性的数据: Volume(巨大的数据量): Variety(数据类型多): 文本/图片/视频 等非结构化/半结构化数据 Velocity(处理速度快): 要求系统在短时间内做出反应 Value(价值密度低): 单条数据无价值,无用数据多,综合价值大 3亿用户,每天上亿条微博. 巡天望远镜,已收集140兆兆字节数据 2015年全球移动终端产生的数据量6300PB 案例 两年半前海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。 一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。

  3. 非结构化数据 相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

  4. 与以往数据处理的区别? 作为特指的大数据,其中的“大”是指大型数据集,一般在10T B规模左右;多用户把多个数据集放在一起,形成P B级的数据量;同时这些数据来自多种数据源,以实时、迭代的方式来实现。

  5. 指数型增长的海量数据 • 所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。

  6. 技术演进历史揭示未来是大数据驱动的智慧型经济模式技术演进历史揭示未来是大数据驱动的智慧型经济模式

  7. 大数据崛起 分析大量数据并非是新鲜事物,但近年才有革命性的变化: 数据生成速度加快 网络使用人数逐年递增 存储成本指数下降 硬件成本指数型递减

  8. 大数据崛起 流动数据大量增加 云端数据扩增 企业可用数据资源增大 企业非结构化数据量飞速增长

  9. 大数据崛起 大数据实际上是对更广泛数据的数据挖掘,以前因为成本、处理速度、数据量不足等问题无法处理,随着软硬件的发展,这些问题如今已不是难以跨越的鸿沟!

  10. 大数据发展脉络 经过大数据改造的IT不再是一个冷冰冰的系统,而变成了推动业务发展,挖掘客户内心需求的真正推动剂;大数据将催生更多的应用领域需求。

  11. 用途? 以上介绍的互联网上的数据看起来数量庞大却用处寥寥,但事实上,只要处理好这些数据,就能给商家带来巨大的利益。 举一个简单的例子: 消费服务 商家 针对性地给客户提供 广告与优惠信息

  12. 互联网越来越智能 Google精确掌握用户行为、获取需求 • 前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。 • 谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。 • 这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。

  13. 政治经济 如果数据突然发生变化,那可能预示着经济困境正在加剧 监控手机的使用状况和账单的缴付模式 国情调控 若社交媒体提及粮食或种族冲突,那可能预示爆发了饥荒或者国内骚乱 对Twitter和Facebook等社交媒体网站的数据筛查 医疗保卫 社交媒体上提到某地区受到感染,是对疫情流行的有效早期预警

  14. 大数据的意义----为每位用户量身打造 用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,比用户自己更了解用户,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。

  15. 大数据与云计算

  16. 大数据比云计算更为落地 商业模式驱动 应用需求驱动 云计算本身也是大数据的一种业务模式

  17. 大数据----现状 • 2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。 • 2012年中国大数据市场规模将达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。 2012年各行业大数据市场规模 • 2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。 • 由于各个行业都存在大数据应用需求,潜在市场空间非常可观。

  18. 大数据----国外已经投资应用 • 美国国务院采用大数据技术开发新的美国护照系统。 • IBM宣布投资1亿美元用于大数据研究; • 大数据公司引入汽车行业高管人员扩展营销业务; • 美国IT公司开始意识到大数据技术能够为公司创造价值;

  19. IBM/Oracle/EMC/Microsoft角力大数据 EMC IBM EMC的大数据解决方案专注于使组织更有效地使用他们从不同来源产生的数据,包括网络上,网页上,消费者,监控系统和传感器。 EMC的数据计算产品事业部正在开发分析工具以解决大数据现象。 EMC的大数据解决方案包括40多个产品。 IBM的策略是提供一个全面的方法来解决前所未有的信息爆炸提出的挑战,因为信息量无论在流量、种类、速度还是活力上都是爆炸式增长 IBM一直致力于扩大对包括数据仓库中的大数据、信息流和结构化数据的分析 • 2010年7月收购数据库软件供应商Greenplum,花费3亿美元 • 2009年七月收购数据复制解决方案提供商Data Domain,花费24亿美元 • 不一定和大数据完全相关,EMC从2009年起收购了Archer Technologies, SourceLabs, FastScale Technology, Configuresoft, and Varonis Systems。 • 在过去四年中,IBM已经投入超过120亿美元进行了23项相关并购,其中包括: • 2010年9月收购数据库分析供应商Netezza公司,花费17亿美元 • 2010年10月收购网络分析软件供应商Coremetrics • 2009年10月收购数据分析和统计软件提供商SPSS, 花费12亿美元 • 2009年1月收购业务规则管理软件供应商ILOG, 花费3亿4千万美元 • 2007年花费20亿美元收购商务智能软件供应商Cognos 甲骨文 微软 甲骨文大数据提供的数据库和数据库软件主要用于配合Sun的硬件,特别是它的最高端服务 微软提供了高性能计算能力,并在2005年靠Windows Compute Cluster服务器进入相关市场 最近,微软的HPC部门开发了该公司的Dryad 并行处理技术社区技术预览(CTP),第一步是向Windows HPC Server的用户提供处理大数据工具 • 2009年7月收购专注于数据复制和实时数据集成解决方案的私人企业GoldenGate Software

  20. 大数据中国市场----雷声大雨点小 中国的大数据领域到底有多少活跃迹象?除了没完没了的研讨会,还有各类公司“宣称”进军大数据领域的决心,似乎无实际之进展。中国的大数据正在呈现这样的状态:投资人最活跃,技术和服务供应商最热心,数字媒体调门最高,而品牌企业最迷惑。 不是没有业务需求,而是需求还是不可实现的! 事实上,大数据在中国远没有落地,目前很多问题没有解决。

  21. 大数据----问题

  22. 大数据前景----互联网 互联网行业拥抱大数据的关键因素 互联网行业大数据分析面临的主要问题 • 互联网行业对数据实时分析要求较高,例如广告监测、B2C业务,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验和快速准确营销的目的。 • 目前互联网企业面对大数据,会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等问题。 互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。

  23. 大数据前景----医疗 医疗数据透明度 • 医疗行业产生的数据量主要来自于PACS影像、B超、病理分析等业务所产生的非结构化数据。人体不同部位、不同专科影像的数据文件大小不一,PACS网络存储和传输要采取不同策略。面对大数据,医疗行业遇到前所未有的挑战和机遇。 • 医疗行业大数据应用场景非常多,右图仅以临床操作和研发为例,展示医疗行业大数据应用场景。 • 对于公共卫生部门,可以通过过覆盖全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应。 远程病人监控 临床操作 临床决策支持系统 比较效果研究 预测建模 研发 疾病模式的分析 提高临床试验设计的统计工具和算法

  24. 大数据前景----能源 能源行业数据特征 能源行业面临的大数据问题 能源勘探开发数据的类型众多,不同类型数据包含的信息各具特点,综合各种数据所包含的信息才能得出地下真实的地质状况。 能源行业企业对大数据产品和解决方案的需求集中体现在:可扩展存储、高带宽、可处理不同格式数据的分析方案。

  25. 大数据前景----小结 契合度 优先关注行业用户 • 应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。 值得关注行业用户 应有特点与大数据的契合度及应用可能性综合较高 政府(公共事业) 互联网(电子商务) 医疗 High 电信 制造 • 纵轴契合度: • 表示该用户的IT应用特点与大数据特性的契合程度; • 横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性; • 注: • 该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值 金融 能源(电力/石油) 适当关注行业用户 两个维度暂时都不具备优势,可适当给予关注 教育 Mid 流通 零售 交通 Low 应用可能性 High Low Mid

More Related