找回密码
 立即注册

看懂“大数据”,这一篇就够了!

| 2024-5-6 11:57 阅读 70228 评论 0

源 / 鲜枣书院 文 / 小枣君


大师好,我是小枣君。


明天这篇文章,我们来聊聊数据




近年来,大数据这个词的热度很高,遭到公众的普遍关注。


对于很多人来说,当他第一次听到“大数据”这个词,会自但是然从字面上去了解——以为大数据就是大量的数据,大数据技术就是大量数据的存储技术。


但究竟上,它并不但是一项存储技术,而是一系列和海量数据相关的抽取、集成、治理、分析、诠释技术。大数据系统,是一个庞大的框架系统。


更进一步来说,大数据是一种全新的思维方式和贸易形式。




图片来自收集


明天这篇文章,就让我们来深入领会一下,到底什么是大数据。


大数据的界说


首先,我们看看大数据的界说


行业里对大数据的界说有很多,有广义的界说,也有狭义的界说。


广义的界说,有点哲学味道——大数据,是指物理天下到数字天下的映照和提炼。经过发现其中的数据特征,从而做出提升效力的决议行为。


狭义的界说,是技术工程师给的——大数据,是经过获得存储分析,从大容量数据中挖掘代价的一种全新的技术架构。


相比力而言,狭义界说更好了解一些。


大师留意,关键词我都在上面原句加粗了:


要做什么?——获得数据、存储数据、分析数据

对谁做?——大容量数据

目标是什么?——挖掘代价


获得数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们天天都在用电脑,天天都在干这个事。


例如,每月的月初,考勤治理员会获得每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有几多人早退、缺勤,然后扣TA人为。


可是,一样的行为,放在大数据身上,就行欠亨了。换言之,传统小我电脑,传统常规软件,有力应对的数据级别,才叫“大数据”。


大数据,到底有多大?


我们传统的小我电脑,处置的数据,是GB/TB级别。例如,我们的硬盘,现在凡是是1TB/2TB/4TB的容量。


TB、GB、MB、KB的关系,大师应当都很熟悉了:


1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)


而大数据是什么级别呢?PB/EB级别。




大部分人都没听过。实在也就是继续乘以1024:


1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)


只是看这几个字母的话,貌似不是很直观。我来举个例子吧。


1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,大概是20万部电子书。




普通硬盘


1PB,需要大约2个机柜的存储装备。容量大约是2亿张照片或2亿首MP3音乐。假如一小我不停地听这些音乐,可以听1900年。。。




2个机柜


1EB,需要大约2000个机柜的存储装备。假如并排放这些机柜,可以连缀1.2千米那末长。假如摆放在机房里,需要21个标准篮球场那末大的机房,才能放得下。




21个篮球场


阿里、百度、腾讯这样的互联网巨头,数据量听说已经接近EB级。




阿里数据中心内景


EB还不是最大的。今朝全人类的数据量,是ZB级。


1 ZB = 1024 EB (ZB - zettabyte)


2011年,全球被建立和复制的数据总量是1.8ZB。


而到2020年,全球电子装备存储的数据,将到达35ZB。假如建一个机房来存储这些数据,那末,这个机房的面积将比42个鸟巢活动场还大。




数据量不但大,增加还很快——每年增加50%。也就是说,每两年就会增加一倍。


今朝的大数据利用,还没有到达ZB级,首要集合在PB/EB级别。


大数据的级别定位

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

1 ZB = 1024 EB (ZB - zettabyte)


数据的来历


数据的增加,为什么会如此之快?


说到这里,就要回首一下人类社会数据发生的几个重要阶段。


大致来说,是三个重要的阶段。


第一个阶段,就是计较机被发现以后的阶段。特别是数据库被发现以后,使得数据治理的复杂度大大下降。各行各业起头发生了数据,从而被记录在数据库中。这时的数据,以结构化数据为主(待会诠释什么是“结构化数据”)。数据的发生方式,也是被动的。




天下上第一台通用计较机-ENIAC


第二个阶段,是陪伴着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。随着互联网和移动通讯装备的提高,人们起头利用博客、facebook、youtube这样的交际收集,从而自动发生了大量的数据。




第三个阶段,是感知式系统阶段。随着物联网的成长,各类百般的感知层节点起头自动发生大量的数据,例如遍及天下各个角落的传感器、摄像头。




经过了“被动-自动-自动”这三个阶段的成长,终极致使了人类数据总量的极速收缩。


大数据的4个V


行业里对大数据的特点,概括为4个V。


前面所说的庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,别离是Variety、Velocity、Value。


我们一个一个来先容。


  • Variety(多样化)

数据的形式是多种多样的,包括数字(价格、买卖数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。


数据又分为结构化数据非结构化数据


从名字可以看出,结构化数据,是指可以用预先界说的数据模子表述,大概,可以存入关系型数据库的数据。



结构化数据


例如,一个班级一切人的年龄、一个超市一切商品的价格,这些都是结构化数据。


而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。


在互联网范畴里,非结构化数据的占比已经跨越全部数据量的80%


大数据,就合适这样的特点:数据形式多样化,且非结构化数据占比高。


  • Velocity(时效性)

大数据还有一个特点,那就是时效性。从数据的天生到消耗,时候窗口很是小。数据的变化速度,还有处置进程,越来越快。例如变化速度,从之前的按天变化,酿成现在的按秒甚至毫秒变化。


我们还是用数字来措辞:


就在刚刚曩昔的这一分钟,数据天下里发生了什么?

Email:2.04亿封被发出

Google:200万次搜索请求被提交

Youtube:2880分钟的视频被上传

Facebook:69.5万条状态被更新

Twitter:98000条推送被发出

12306:1840张车票被卖出

……


怎样样?能否是瞬息万变?


  • Value(代价密度)

最初一个特点,就是代价密度。


大数据的数据量很大,但随之带来的,就是代价密度很低,数据中真正有代价的,只是其中的很少一部分。


例如经过监控视频寻觅犯罪份子的边幅,也许几TB的视频文件,真正有代价的,只要几秒钟。




2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,四周商铺、加油站、报摊的监控录像以及自愿者供给的影象材料),终极找到了怀疑犯的一张照片。


大数据的代价


适才说到代价密度,也就说到了大数据的焦点本质,那就是代价

人类提出大数据、研讨大数据的首要目标,就是为了挖掘大数据里面的代价。


大数据,究竟有什么代价?


早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明白提出:“数据就是财富”,而且,将大数据称为“第三次浪潮的华彩乐章”。


  • 第一次浪潮:农业阶段,约1万年前起头
  • 第二次浪潮:产业阶段,17世纪末起头
  • 第三次浪潮:信息化阶段,20世纪50年月前期起头

进入21世纪以后,随着前面所说的第二第三阶段的成长,移动互联网突起,存储才能和云计较才能奔腾,大数据起头落地,也引发了越来越多的重视。


2012年的天下经济论坛指出:“数据已经成为一种新的经济资产种别,就像货币和黄金一样”。这无疑将大数据的代价推到了史无前例的高度层面上。


现在,大数据利用起头走进我们的生活,影响我们的衣食住行。




滴滴的大数据杀熟,相信大师都有所耳闻


之所以大数据会有这么快的成长,就是由于越来越多的行业和企业,起头熟悉到大数据的代价,起头试图介入挖掘大数据的代价。


归纳来说,大数据的代价首要来自于两个方面:


1 帮助企业领会用户


大数据经过相关性分析,将客户和产物、办事停止关系串联,对用户的偏好停止定位,从而供给更精准、更有导向性的产物和办事,提升销售业绩。


典型的例子就是电商


像阿里淘宝这样的电子商务平台,堆集了大量的用户采办数据。在早期的时辰,这些数据都是累赘和负担,存储它们需要大量的硬件本钱。可是,现在这些数据都是阿里最贵重的财富。


经过这些数据,可以分析用户行为,精准定位方针客群的消耗特点、品牌偏好、地域散布,从而指导商家的运营治理、品牌定位、推行营销等。




大数据可以对业绩发生间接影响。它的效力和正确性,远远跨越传统的用户调研。


除了电商,包括能源、影视、证券、金融、农业、产业、交通运输、公同奇迹等,都是大数据的用武之地。




大数据甚至可以帮助竞选总统


2 帮助企业领会自己


除了帮助领会用户之外,大数据还能帮助领会自己。


企业生产经营需要大量的资本,大数据可以分析和锁定资本的具体情况,例如储量散布和需求趋向。这些资本的可视化,可以帮助企业治理者更直观地领会企业的运作状态,更快地发现题目,实时调剂运营战略,下降经营风险。


总而言之,“知己知彼,攻无不克”。大数据,就是为决议办事的


大数据和云计较


说到这里,我们要回答一个很多民气里都存在的迷惑——大数据和云计较之间,到底有什么关系?


可以这么诠释:数据自己是一种资产,而云计较,则是为挖掘资产代价供给合适的工具。


从技术上,大数据是依靠于云计较的。云计较里面的海量数据存储技术、海量数据治理技术、散布式计较模子等,都是大数据技术的根本。


云计较就像是挖掘机,大数据就是矿山。假如没有云计较,大数据的代价就发挥不出来。


相反的,大数据的处置需求,也刺激了云计较相关技术的成长和落地。


也就是说,假如没有大数据这座矿山,云计较这个挖掘机,很多强悍的功用都成长不起来。


套用一句老话——云计较和大数据,两者是相辅相成的。


大数据和物联网(5G)


第二个题目,大数据和物联网有什么关系?


这个题目我感觉大师应当可以很快想大白,前面实在也提到了。


物联网就是“物与物相互毗连的互联网”。物联网的感知层,发生了海量的数据,将会极大地促进大数据的成长。


一样,大数据利用也发挥了物联网的代价,反向刺激了物联网的利用需求。越来越多的企业,发觉可以经过物联网大数据获得代价,就会愿意投资扶动物联网。


实在这个题目也可以进一步延长为“大数据和5G之间的关系”


行将到来的5G,经过提升毗连速度,提升了“人联网”的感知,也促进了人类自动缔造数据。


另一方面,它更多是为“物联网”办事的。包括低延时、海量终端毗连等,都是物联网场景的需求。


5G刺激物联网的成长,而物联网刺激大数据的成长。一切通讯根本设备的强大,都是为大数据突起摊平门路。


大数据的产业链


接下来再说说大数据的产业链。


大数据的产业链,和大数据的处置流程是慎密相关的。简单来说,就是生产数据、聚合数据、分析数据、消耗数据。


每个环节,都有响应的脚色玩家。以下图:




从今朝的情况来看,国外厂商在大数据产业占据了较大的份额,特别是上游范畴,根基上都是国外企业。国内IT企业相比而言,存在较大的差异。




大数据相关重点范畴及企业(技术)


大数据的应战


说了那末多大数据的好话,并不代表大数据是完善的。


大数据也面临着很多应战。


除了数据治理技术难度之外,大数据的最大应战,就是平安


数据是资产,也是隐私。没有人愿意自己的隐私被表露,所以,人们对自己的隐私庇护越来越重视。政府也在不竭增强对百姓隐私权的庇护,出台了很多法令。




欧盟在2018年出台了有史以来最严厉的GDPR(《一般数据庇护法案》),把收集数据庇护上升到史无前例的高度


在这类情况下,企业获得用户数据,就需要稳重斟酌,能否合适伦理和法令。一旦违法,将支出极为繁重的价格。


此外,即使企业正当获得数据,也要担忧能否会被恶意进犯和窃取。这里面的风险也是不容轻忽的。


除了平安之外,大数据还要面临能耗等方面的题目。


换言之,假如不能很好地庇护和操纵手里的大数据,那末它就是一个烫手的山芋,有还不如没有。


好啦,味同嚼蜡写了这么多,相信大师已经对大数占有了初步的领会。

文章点评
2022-03-27 18:08
互联网 移动互联网时代的管理模式:社交化
来源:tita.com专业的OKR管理与教练认证平台近现代的社会发展经历过这样三个阶段:工 <详情>
2022-03-27 18:21
互联网 移动互联网出海8年,我们到底对海外环境了解多少?
始自 2010 年的中国移动互联网的出海浪潮,几年时间里经过探索、爆发、迭代转型后,目 <详情>
2022-03-27 19:26
互联网 1.2 量子计算与量子电路
介绍完计算的基本单位qubit后,我们可以进行量子计算了。在经典计算机中,我们使用电 <详情>
2022-03-28 12:32
互联网 五年过去了 我的VR设备为什么还在吃灰
2018年,刚刚走上工作岗位的我为了心动已久的《节奏光剑》购入了PSVR。彼时的囊中羞涩 <详情>
2022-03-28 13:17
互联网 VR设备终于出了第一个爆款!2022将是关键一年
2020年以来,随着VR软硬件设备的迭代升级,硬件成本的下降以及体验感的提升,加上“元 <详情>
2022-03-28 15:26
互联网 量子计算重大突破:科学家实现512个量子位的中性原子体系
澎湃新闻记者 王蕙蓉近日,科学家在中性原子量子计算领域取得重大突破,首次实现具有5 <详情>
2022-03-28 17:22
互联网 AR.js 初探
写之前说几句,以下示例和参考都是github上的开源作品,小编只是分享在使用过程中的踩 <详情>
2022-03-28 17:56
互联网 三分钟了解NB-IoT物联网技术
今天我们来一起吹吹NB!其实,通信圈里的小伙伴已经猜到了,我所说的NB,就是它:在具 <详情>
2022-03-28 18:24
互联网 【2022.3.9】VR(虚拟现实)科普文/眼镜/电影/游戏/资源/元 ...
(一)VR设备从今年的情况来VR渐渐从寒冬苏醒过来,最为明显的信号就是各大厂商纷纷推 <详情>
2022-03-28 18:36
互联网 纯流量卡(物联网卡)经验科普贴
本人从事物联网行业多年,并且拥有自己的工作室,也见证了物联网卡的起起伏伏,在这里 <详情>
2022-03-29 08:49
互联网 五分钟带你了解物联网(IoT)及其未来应用方向
来源:物联网智库 导 读 未来的IoT应用,将在不同行业中,和不同领域中,从简单的状态 <详情>
2022-03-29 10:13
互联网 从大数据到数据库
这个专栏虽然是 TiDB AP 组的,但基本不代表官方态度(这样可以写的随意一点)。从上 <详情>
2022-03-29 10:19
互联网 大数据方向毕业设计如何做,分享我的思路
前言最近有很多人问我,大数据专业有什么好的毕设项目,我就简单的回复了一下。也有直 <详情>
2022-03-29 10:19
互联网 大数据毕业设计
1 开题指导1.1 起因近期开题的同学越来越多,很多同学不知道怎么选题,不知道老师分配 <详情>
2022-03-29 10:49
互联网 2021最全大数据学习路线(建议收藏)
个人简介:非科班双一流硕士,CAE仿真方向转行大数据,现杭州某大厂大数据工程师! 我 <详情>
2022-03-29 15:45
互联网 第一次有人把5G讲的这么简单明了
原作者:小枣君原出处:鲜枣课堂原链接:有史以来最强的5G入门科普!关于5G通信,常见 <详情>
2022-03-29 17:24
互联网 聊一聊 VR 虚拟现实(十一):VR 未来20年发展趋势预测
要想做好眼前的事,首先要知道它未来会是什么样子?本篇文章里,我们就讨论下VR的未来 <详情>
2022-03-29 17:25
互联网 2022年VR眼镜这么选?100-5000元内的VR眼镜推荐 ...
哈喽!大家好,我是热爱分享的 @雪雪雪雪碧 呀,这篇文章主要给大家分享家用VR眼镜的 <详情>
2022-03-29 17:26
互联网 个人向VR硬件推荐/选购指南(更新到2021)
联动游戏推荐贴:联动VR设置贴:VR组织QQ群推荐:(较为婆罗门S1论坛VR群,水分少,有 <详情>
2022-03-29 17:42
互联网 2022年VR眼镜评测,Oculus、Pico、Nolo、HTC品牌推荐 ...
【全文约4000字,精读10分钟】全文精华总结,不想看长内容的,直接看结论: 【VR眼镜 <详情>

热门文章