源 / 鲜枣书院 文 / 小枣君 大师好,我是小枣君。 明天这篇文章,我们来聊聊大数据。 近年来,大数据这个词的热度很高,遭到公众的普遍关注。 对于很多人来说,当他第一次听到“大数据”这个词,会自但是然从字面上去了解——以为大数据就是大量的数据,大数据技术就是大量数据的存储技术。 但究竟上,它并不但是一项存储技术,而是一系列和海量数据相关的抽取、集成、治理、分析、诠释技术。大数据系统,是一个庞大的框架系统。 更进一步来说,大数据是一种全新的思维方式和贸易形式。 图片来自收集 明天这篇文章,就让我们来深入领会一下,到底什么是大数据。 大数据的界说 首先,我们看看大数据的界说。 行业里对大数据的界说有很多,有广义的界说,也有狭义的界说。 广义的界说,有点哲学味道——大数据,是指物理天下到数字天下的映照和提炼。经过发现其中的数据特征,从而做出提升效力的决议行为。 狭义的界说,是技术工程师给的——大数据,是经过获得、存储、分析,从大容量数据中挖掘代价的一种全新的技术架构。 相比力而言,狭义界说更好了解一些。 大师留意,关键词我都在上面原句加粗了: 要做什么?——获得数据、存储数据、分析数据 对谁做?——大容量数据 目标是什么?——挖掘代价 获得数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们天天都在用电脑,天天都在干这个事。 例如,每月的月初,考勤治理员会获得每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有几多人早退、缺勤,然后扣TA人为。 可是,一样的行为,放在大数据身上,就行欠亨了。换言之,传统小我电脑,传统常规软件,有力应对的数据级别,才叫“大数据”。 大数据,到底有多大? 我们传统的小我电脑,处置的数据,是GB/TB级别。例如,我们的硬盘,现在凡是是1TB/2TB/4TB的容量。 TB、GB、MB、KB的关系,大师应当都很熟悉了: 1 KB = 1024 B (KB - kilobyte) 1 MB = 1024 KB (MB - megabyte) 1 GB = 1024 MB (GB - gigabyte) 1 TB = 1024 GB (TB - terabyte) 而大数据是什么级别呢?PB/EB级别。 大部分人都没听过。实在也就是继续乘以1024: 1 PB = 1024 TB (PB - petabyte) 1 EB = 1024 PB (EB - exabyte) 只是看这几个字母的话,貌似不是很直观。我来举个例子吧。 1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,大概是20万部电子书。 普通硬盘 1PB,需要大约2个机柜的存储装备。容量大约是2亿张照片或2亿首MP3音乐。假如一小我不停地听这些音乐,可以听1900年。。。 2个机柜 1EB,需要大约2000个机柜的存储装备。假如并排放这些机柜,可以连缀1.2千米那末长。假如摆放在机房里,需要21个标准篮球场那末大的机房,才能放得下。 21个篮球场 阿里、百度、腾讯这样的互联网巨头,数据量听说已经接近EB级。 阿里数据中心内景 EB还不是最大的。今朝全人类的数据量,是ZB级。 1 ZB = 1024 EB (ZB - zettabyte) 2011年,全球被建立和复制的数据总量是1.8ZB。 而到2020年,全球电子装备存储的数据,将到达35ZB。假如建一个机房来存储这些数据,那末,这个机房的面积将比42个鸟巢活动场还大。 数据量不但大,增加还很快——每年增加50%。也就是说,每两年就会增加一倍。 今朝的大数据利用,还没有到达ZB级,首要集合在PB/EB级别。 大数据的级别定位 1 KB = 1024 B (KB - kilobyte) 1 MB = 1024 KB (MB - megabyte) 1 GB = 1024 MB (GB - gigabyte) 1 TB = 1024 GB (TB - terabyte) 1 PB = 1024 TB (PB - petabyte) 1 EB = 1024 PB (EB - exabyte) 1 ZB = 1024 EB (ZB - zettabyte) 数据的来历 数据的增加,为什么会如此之快? 说到这里,就要回首一下人类社会数据发生的几个重要阶段。 大致来说,是三个重要的阶段。 第一个阶段,就是计较机被发现以后的阶段。特别是数据库被发现以后,使得数据治理的复杂度大大下降。各行各业起头发生了数据,从而被记录在数据库中。这时的数据,以结构化数据为主(待会诠释什么是“结构化数据”)。数据的发生方式,也是被动的。 天下上第一台通用计较机-ENIAC 第二个阶段,是陪伴着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。随着互联网和移动通讯装备的提高,人们起头利用博客、facebook、youtube这样的交际收集,从而自动发生了大量的数据。 第三个阶段,是感知式系统阶段。随着物联网的成长,各类百般的感知层节点起头自动发生大量的数据,例如遍及天下各个角落的传感器、摄像头。 经过了“被动-自动-自动”这三个阶段的成长,终极致使了人类数据总量的极速收缩。 大数据的4个V 行业里对大数据的特点,概括为4个V。 前面所说的庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,别离是Variety、Velocity、Value。 我们一个一个来先容。
数据的形式是多种多样的,包括数字(价格、买卖数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。 数据又分为结构化数据和非结构化数据。 从名字可以看出,结构化数据,是指可以用预先界说的数据模子表述,大概,可以存入关系型数据库的数据。 结构化数据 例如,一个班级一切人的年龄、一个超市一切商品的价格,这些都是结构化数据。 而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。 在互联网范畴里,非结构化数据的占比已经跨越全部数据量的80%。 大数据,就合适这样的特点:数据形式多样化,且非结构化数据占比高。
大数据还有一个特点,那就是时效性。从数据的天生到消耗,时候窗口很是小。数据的变化速度,还有处置进程,越来越快。例如变化速度,从之前的按天变化,酿成现在的按秒甚至毫秒变化。 我们还是用数字来措辞: 就在刚刚曩昔的这一分钟,数据天下里发生了什么? Email:2.04亿封被发出 Google:200万次搜索请求被提交 Youtube:2880分钟的视频被上传 Facebook:69.5万条状态被更新 Twitter:98000条推送被发出 12306:1840张车票被卖出 …… 怎样样?能否是瞬息万变?
最初一个特点,就是代价密度。 大数据的数据量很大,但随之带来的,就是代价密度很低,数据中真正有代价的,只是其中的很少一部分。 例如经过监控视频寻觅犯罪份子的边幅,也许几TB的视频文件,真正有代价的,只要几秒钟。 2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,四周商铺、加油站、报摊的监控录像以及自愿者供给的影象材料),终极找到了怀疑犯的一张照片。 大数据的代价 适才说到代价密度,也就说到了大数据的焦点本质,那就是代价。 人类提出大数据、研讨大数据的首要目标,就是为了挖掘大数据里面的代价。 大数据,究竟有什么代价? 早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明白提出:“数据就是财富”,而且,将大数据称为“第三次浪潮的华彩乐章”。
进入21世纪以后,随着前面所说的第二第三阶段的成长,移动互联网突起,存储才能和云计较才能奔腾,大数据起头落地,也引发了越来越多的重视。 2012年的天下经济论坛指出:“数据已经成为一种新的经济资产种别,就像货币和黄金一样”。这无疑将大数据的代价推到了史无前例的高度层面上。 现在,大数据利用起头走进我们的生活,影响我们的衣食住行。 滴滴的大数据杀熟,相信大师都有所耳闻 之所以大数据会有这么快的成长,就是由于越来越多的行业和企业,起头熟悉到大数据的代价,起头试图介入挖掘大数据的代价。 归纳来说,大数据的代价首要来自于两个方面: 1 帮助企业领会用户 大数据经过相关性分析,将客户和产物、办事停止关系串联,对用户的偏好停止定位,从而供给更精准、更有导向性的产物和办事,提升销售业绩。 典型的例子就是电商。 像阿里淘宝这样的电子商务平台,堆集了大量的用户采办数据。在早期的时辰,这些数据都是累赘和负担,存储它们需要大量的硬件本钱。可是,现在这些数据都是阿里最贵重的财富。 经过这些数据,可以分析用户行为,精准定位方针客群的消耗特点、品牌偏好、地域散布,从而指导商家的运营治理、品牌定位、推行营销等。 大数据可以对业绩发生间接影响。它的效力和正确性,远远跨越传统的用户调研。 除了电商,包括能源、影视、证券、金融、农业、产业、交通运输、公同奇迹等,都是大数据的用武之地。 大数据甚至可以帮助竞选总统 2 帮助企业领会自己 除了帮助领会用户之外,大数据还能帮助领会自己。 企业生产经营需要大量的资本,大数据可以分析和锁定资本的具体情况,例如储量散布和需求趋向。这些资本的可视化,可以帮助企业治理者更直观地领会企业的运作状态,更快地发现题目,实时调剂运营战略,下降经营风险。 总而言之,“知己知彼,攻无不克”。大数据,就是为决议办事的。 大数据和云计较 说到这里,我们要回答一个很多民气里都存在的迷惑——大数据和云计较之间,到底有什么关系? 可以这么诠释:数据自己是一种资产,而云计较,则是为挖掘资产代价供给合适的工具。 从技术上,大数据是依靠于云计较的。云计较里面的海量数据存储技术、海量数据治理技术、散布式计较模子等,都是大数据技术的根本。 云计较就像是挖掘机,大数据就是矿山。假如没有云计较,大数据的代价就发挥不出来。 相反的,大数据的处置需求,也刺激了云计较相关技术的成长和落地。 也就是说,假如没有大数据这座矿山,云计较这个挖掘机,很多强悍的功用都成长不起来。 套用一句老话——云计较和大数据,两者是相辅相成的。 大数据和物联网(5G) 第二个题目,大数据和物联网有什么关系? 这个题目我感觉大师应当可以很快想大白,前面实在也提到了。 物联网就是“物与物相互毗连的互联网”。物联网的感知层,发生了海量的数据,将会极大地促进大数据的成长。 一样,大数据利用也发挥了物联网的代价,反向刺激了物联网的利用需求。越来越多的企业,发觉可以经过物联网大数据获得代价,就会愿意投资扶动物联网。 实在这个题目也可以进一步延长为“大数据和5G之间的关系”。 行将到来的5G,经过提升毗连速度,提升了“人联网”的感知,也促进了人类自动缔造数据。 另一方面,它更多是为“物联网”办事的。包括低延时、海量终端毗连等,都是物联网场景的需求。 5G刺激物联网的成长,而物联网刺激大数据的成长。一切通讯根本设备的强大,都是为大数据突起摊平门路。 大数据的产业链 接下来再说说大数据的产业链。 大数据的产业链,和大数据的处置流程是慎密相关的。简单来说,就是生产数据、聚合数据、分析数据、消耗数据。 每个环节,都有响应的脚色玩家。以下图: 从今朝的情况来看,国外厂商在大数据产业占据了较大的份额,特别是上游范畴,根基上都是国外企业。国内IT企业相比而言,存在较大的差异。 大数据相关重点范畴及企业(技术) 大数据的应战 说了那末多大数据的好话,并不代表大数据是完善的。 大数据也面临着很多应战。 除了数据治理技术难度之外,大数据的最大应战,就是平安。 数据是资产,也是隐私。没有人愿意自己的隐私被表露,所以,人们对自己的隐私庇护越来越重视。政府也在不竭增强对百姓隐私权的庇护,出台了很多法令。 欧盟在2018年出台了有史以来最严厉的GDPR(《一般数据庇护法案》),把收集数据庇护上升到史无前例的高度 在这类情况下,企业获得用户数据,就需要稳重斟酌,能否合适伦理和法令。一旦违法,将支出极为繁重的价格。 此外,即使企业正当获得数据,也要担忧能否会被恶意进犯和窃取。这里面的风险也是不容轻忽的。 除了平安之外,大数据还要面临能耗等方面的题目。 换言之,假如不能很好地庇护和操纵手里的大数据,那末它就是一个烫手的山芋,有还不如没有。 好啦,味同嚼蜡写了这么多,相信大师已经对大数占有了初步的领会。 |