行业动态 火狐体育app:《大数据》精华连载(2):大数据概念与应用——的来源 来源:火狐体育最新官网登录入口 作者:火狐体育app 发表时间: 2022-12-05 12:48:24

  《大数据》是知名教材《云计算》的姊妹篇,是中国大数据专家委员会刘鹏教授联合国内多位专家历时两年的心血之作。本书系统地介绍了大数据的理论知识和实战应用,包括大数据采集与预处理、数据挖掘算法和工具和大数据可视化等,并深度剖析了大数据在互联网、商业和典型行业的应用。

  本书配套的大数据实验体系已经在郑州大学、成都理工大学、郑州升达经贸管理学院、信阳师范学院、西京学院、镇江高等职业技术学校、软通动力等十多所典型用户单位落地实施。自出版以来,《大数据》广受好评,并相继推出了全套PPT。

  英特尔创始人戈登·摩尔(Gordon Moore)在1965年提出了著名的“摩尔定律”,即当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。1998年图灵奖获得者杰姆·格雷(JimGray)提出著名的“新摩尔定律”,即人类有史以来的数据总量,每过18个月就会翻一番[5]。

  (3)网民每天在Facebook上要花费234亿分钟,被移动互联网使用者发送和接收的数据高达44PB。

  (4)全球每秒发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不停地读5.5年。

  (5)每天会有2.88万个小时的视频上传到YouTube,足够一个人昼夜不停地观看3.3年。

  (6)Twitter上每天发布5000万条消息,假设10秒就浏览一条消息,足够一个人昼夜不停地浏览16年。

  为什么会产生如此海量的数据?主要有3个因素:一是大人群产生的海量数据,全球已经有大约30亿人接入了互联网,在Web 2.0时代,每个人不仅是信息的接受者,也是信息的产生者,每个人都成为数据源,几乎每个人都在用智能终端拍照、拍视频、发微博、发微信等。二是大量传感器产生的海量数据,目前全球有30亿~50亿个传感器,到2020年会达到10万亿个之多,这些传感器24小时不停地产生数据,这就导致了信息的爆炸。三是科学研究和各行各业越来越依赖大数据手段来开展工作,例如,欧洲粒子物理研究所的大型强子对撞机每年需要处理的数据是100PB,且年增长27PB;又如,石油部门用地震勘探的方法来探测地质构造、寻找石油,需要用大量传感器来采集地震波形数据;高铁的运行要保障安全,需要在铁轨周边大量部署传感器,从而感知异物、滑坡、水淹、变形、地震等异常。

  也就是说,随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”这样一个概念才会应运而生[3]。

  从另一个角度看,大数据无非就是通过各种数据采集器、数据库、开源的数据发布、GPS信息、网络痕迹(如购物、搜索历史等)、传感器收集的、用户保存的、上传的等结构化或者非结构化的数据,非常广泛。我们可以从产生数据的主体、数据来源的行业、数据存储的形式三个方面来对大数据的来源进行分类。

  如推特、微博、通信软件、移动通信数据、电子商务在线交易日志数据、企业应用的相关评论数据等。

  如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形码(条码)扫描数据等。

  百度公司数据总量超过了千PB级别,数据涵盖了中文网页、百度推广、百度日志、UGC等多个部分,并以70%以上的搜索市场份额坐拥庞大的搜索数据。阿里巴巴公司保存的数据量超过了百PB级别,拥有90%以上的电商数据,数据涵盖了点击网页数据、用户浏览数据、交易数据、购物数据等。腾讯公司总存储数据量经压缩处理以后仍然超过了百PB级别,数据量月增加达到10%,包括大量社交、游戏等领域积累的文本、音频、视频和关系类数据。

  电信行业数据包括用户上网记录、通话、信息、地理位置数据等,运营商拥有的数据量将近百PB级别,年度用户数据增长超过10%。金融与保险包括开户信息数据、银行网点数据、在线交易数据、自身运营的数据等,金融系统每年产生的数据超过数十PB,保险系统的数据量也超过了PB级别。电力与石化方面,仅国家电网采集获得的数据总量就达到了数十PB,石油化工领域每年产生和保存下来的数据量也将近百PB级别。

  一个中、大型城市,一个月的交通卡口记录数可以达到3亿条;整个医疗卫生行业一年能够保存下来的数据就可达到数百PB级别;航班往返一次产生的数据就达到TB级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存下来的也达到数十PB。

  中国气象局保存的数据将近10PB,每年约增数百TB;各种地图和地理位置信息每年约数十PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且多为结构化数据。

  制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控数据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数据量非常大。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都不算大,多则达到PB级别,少则数十TB或数百TB级别。

  大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。

  结构化数据简单来说就是数据库,如企业ERP、财务系统、医疗HIS数据库、教育一卡通、政府行政审批、其他核心数据库等数据。

  非结构化数据包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等数据。

  大数据的价值不在于存储数据本身,而在于如何挖掘数据,只有具备足够的数据源才可以挖掘出数据背后的价值,因此,获取大数据是非常重要的基础。就数据获取而言,大型互联网企业由于自身用户规模庞大,可以把自身用户产生的交易、社交、搜索等数据充分挖掘,拥有稳定安全的数据资源。对于其他大数据公司和大数据研究机构而言,目前获取大数据的方法有如下4种:

  可以使用海量数据采集工具,用于系统日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具均采用分布式架构,能满足大数据的日志数据采集和传输需求。

  通过网络爬虫或网站公开API等方式从网站上获取数据信息,该方法可以数据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网站中包含的内容之外,还可以使用DPI或DFI等带宽管理技术实现对网络流量的采集。

  APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可以将用户使用APP的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端的相关信息,包括安装应用的数量和类型等。单个APP用户规模有限,数据量有限;但数十万APP用户,获取的用户终端数据和部分行为数据也会达到数亿的量级。

  数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、明确地获取自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密性要求较高的数据,也可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

  欢迎关注公众号:刘鹏看未来(ID:lpoutlook),第一时间获取《大数据》精华连载内容!

  刘鹏教授,清华大学博士毕业,现任南京大数据研究院院长,兼任中国信息协会大数据分会副会长、中国大数据专家委员会委员、中国大数据技术与应用联盟副理事长,同时也是中国云计算(、中国大数据(thebigdata.cn)网站的创始人,《云计算》、《大数据》教材主编。返回搜狐,查看更多

上一篇:从数据到大数据技术工具的演变 下一篇:安康电视台“学习强国”安康学习平台大数据海量存储及采集系统项目招标公告
关注我们
©2022 火狐体育最新登录网址_官网app入口 京公网安备110177777720125 火狐体育最新登录网址|火狐体育app