大数据采集、预处理与可视化(微课版)
上QQ阅读APP看书,第一时间看更新

1.2 大数据的相关概念及特征

随着大数据时代的到来,大数据已经成为互联网信息技术行业的流行语,以大数据为代表的信息资源正在向生产要素形态演进,数据已同其他要素一起融入经济价值的创造过程中。

1.2.1 大数据的概念

通常而言,大数据是指无法在一定时间范围内用常规软件工具进行采集、管理和处理的数据集,是需要新处理模式才能使其具有更强的决策力、洞察发现力和流程优化力的海量、高增长率和多样化的信息资产。不同机构和组织对大数据提出了多种定义,简要描述如下。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

研究机构高德纳(Gartner)给出的大数据的定义:大数据是大容量、高增长率、多样化的信息资产,它需要新的数据处理模式来增强决策力、提升洞察力、优化处理过程。

麦肯锡全球研究院给出的大数据的定义:大数据是一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集,其具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等四大特征。

大数据的战略意义不在于掌握庞大的数据,而在于对这些有意义的数据进行专业化的处理。如果把大数据比作一种产业,这种产业实现盈利的关键在于提高对数据的“加工”能力,通过“加工”实现数据的“增值”。在具体应用中,可以从以下3个方面来丰富和发展大数据的相关概念及其应用。

1.大数据重新定义了数据的价值

大数据既代表一类技术,也代表一个产业,更代表一种发展趋势。大数据技术指的是围绕数据价值化的一系列相关技术,包括数据的采集、存储、管理、分析、可视化、服务、公开等。而大数据产业,则是指以大数据技术为基础的各种各样的产业生态。目前,大数据的产业生态才刚刚起步,还有待进一步开发、创新和完善。大数据将成为一个重要的创新领域,具有较大的发展空间。

2.大数据为智能化社会奠定了基础

人工智能的发展需要3个基础,分别是数据、算力和算法。可以说,大数据对于人工智能的发展具有重要的意义。目前,人工智能技术在应用效果上取得了较为明显的成就,一个重要的原因就是具有大量的数据作为基础,在强大算力的支持下,数据对算法的训练过程和验证过程具有非常高效的支撑作用,从而提升了算法的应用质量。

3.大数据促进了社会资源的数据化进程

大数据产业的发展使得数据产生了更大的价值,这个发展过程会在很大程度上促进社会资源的数据化进程。而更多的社会资源实现数据化之后,大数据的功能边界也会得到不断拓展,从而带动一系列基于大数据的创新应用。例如,大数据正在重新定义工业的未来。大数据正在从设计到生产,从运维到管理等方面,驱动传统工业向前发展,助力工业提质增效,实现转型升级。

目前,大数据之所以受到世界各国的高度重视,其重要原因是大数据不但重新定义了数据的概念和意义,开辟了一个新的价值领域,而且将逐渐成为一种重要的生产材料,甚至可以说大数据将是智能化社会的一种新兴能源,将推动产业的高速变革和社会的巨大进步。

想要系统地认知大数据,可以从理论、实践和技术3个维度来理解它,如图1-1所示。

图1-1 大数据的3个维度

1.2.2 大数据的发展历程

从发展过程来看,大数据的发展历程大致分为3个阶段:萌芽期、成熟期和应用期。

1.萌芽期(20世纪90年代至21世纪初)

随着数据挖掘理论和数据库技术的逐渐成熟,商务智能工具和知识库管理技术开始应用,如数据仓库、知识管理系统等,为大数据的产生提供了前提条件。

1997年10月,美国国家航空航天局武器研究中心的大卫·埃尔斯沃思和迈克尔·考克斯在第八届美国电气电子工程师学会(Institute of Electrical and Electronics Engineers,IEEE)关于可视化的会议论文集中,发表了题为《为外存模型可视化而应用控制程序请求页面调度》的文章,文中首次使用了“大数据”的概念。1998年,《科学》杂志发表了一篇题为《大数据科学的可视化》的文章,大数据作为一个专用名词正式出现在公共期刊上。

在这一阶段,大数据只是作为一个概念,少数学者对其进行了研究和讨论,其意义仅限于数据量的巨大,业界对数据的采集、处理和存储没有作进一步的探索。

2.成熟期(21世纪初至2010年)

随着Web 2.0应用的快速发展,半结构化、非结构化数据大量产生,传统数据处理系统难以应对,从而带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术。谷歌文件系统(Google File System,GFS)、大数据分布式计算框架MapReduce、非关系数据库NoSQL、分布式数据存储系统BigTable等大数据技术受到热捧,Hadoop平台开始盛行。

2001年2月,美国梅塔集团分析师道格·莱尼发布《3D数据管理:控制数据容量、处理速度及数据种类》研究报告,提出了大数据的“3V”特性,即数据总量大(Volume)、数据类型多(Variety)、数据处理速度快(Velocity)。2005年,Hadoop技术应运而生,成为数据分析的主流技术。2008年,《自然》杂志推出了大数据专刊,详细讨论了一系列大数据的问题。2010年,美国信息技术顾问委员会发布了一份题为《规划数字化未来》的报告,详细描述了政府工作中大数据的收集和使用。

在这一阶段,大数据作为一个新名词,开始受到理论界的关注,其概念和特点得到进一步丰富,相关的数据处理技术层出不穷,大数据开始显现出活力。

3.应用期(2011年至今)

大数据应用渗透到各行各业,数据驱动决策,信息社会智能化程度大幅提升。大数据已经从单纯的技术架构和技术体系走向了社会基础设施。

2011年2月11日,《科学》杂志刊登“数据处理”(Dealing with Data)专题(杂志封面如图1-2所示),从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战。2012年3月,美国政府发布了《大数据研究和发展倡议》,正式启动大数据发展计划,大数据上升为美国的国家发展战略,被视为美国政府继“信息高速公路”计划之后在信息科学领域的又一重大举措。2012年,在瑞士举行的世界经济论坛讨论了一系列与大数据有关的问题,发表了题为《大数据,大影响》的报告,并正式宣布了大数据时代的到来。2013年12月,中国计算机学会发布《中国大数据技术与产业发展白皮书(2013)》,系统总结了大数据的核心科学与技术问题,推动了中国大数据学科的建设与发展,并为政府部门提供了战略性的意见与建议。因此,2013年也被称为“大数据元年”。

2014年5月,美国政府发布《大数据:抓住机遇、守护价值》的研究报告,鼓励使用数据来推动社会进步。2017年4月,我国《大数据安全标准化白皮书(2017)》正式发布,从法规、政策、标准和应用等角度,勾画了我国大数据安全的整体轮廓。2020年2月,欧盟委员会发布《欧洲数据战略》,通过建立跨部门治理框架、加强数据基础设施投资、提升个体数据权利和技能、打造公共欧洲数据空间等措施,力争将欧洲打造成全球最具吸引力、最安全和最具活力的数据敏捷经济体。2020年5月,工业和信息化部发布《关于工业大数据发展的指导意见》,对我国工业大数据发展进行了全面部署,进一步促进大数据与工业深度融合发展。2020年5月,社会科学文献出版社出版《大数据蓝皮书:中国大数据发展报告No.4》。蓝皮书首次构建包括全球数字竞争力指数、大数据发展指数、大数据法治指数、大数据安全指数、大数据金融风险防控指数与治理科技指数六大指数在内的评价指数群,通过指数构建和数据分析,真实、客观地反映国家、地区和城市大数据发展和建设的现状、特点、趋势,展示地区数字中国建设取得的成就和存在的问题。2021年11月,工业和信息化部发布《“十四五”大数据产业发展规划》,明确了六大主要任务:加快培育数据要素市场;发挥大数据特性优势;夯实产业发展基础;构建稳定高效产业链;打造繁荣有序产业生态;筑牢数据安全保障防线。

图1-2 《科学》杂志“数据处理”专题的封面

2011年之后,大数据进入了全面应用的时期,越来越多的学者对大数据的研究从基本的概念、特性转到数据资产、思维变革等多个角度。大数据也渗透到各行各业之中,不断变革原有行业的技术并创造出新的技术,大数据的发展呈现出蓬勃之势。同时,大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,是激活数据要素潜能的关键支撑,是加快经济社会发展质量变革、效率变革、动力变革的重要引擎。

1.2.3 大数据的特征

对于大数据的特征,有数据总量大、数据类型多、数据处理速度快等特征的“3V”描述,也有添加价值性(Value)特征的“4V”描述,还有添加真实性(Veracity)特征的“5V”描述。本书以“5V”特征进行介绍。

1.数据总量大

大数据首先体现了“大”的特点,包括采集、存储和计算的量都非常大。大数据的计量单位从一开始的GB级别,增长到PB(1 PB=1 024 TB,1 TB=1 024 GB)、EB(1 EB=1 024 PB)甚至是ZB(1 ZB=1 024 EB)级别。随着信息技术的飞速发展,数据更是得到了爆发式增长。比如,微博、微信、抖音等应用平台每天都会产生海量的数据;工业生产领域、公共交通领域的各种传感器和摄像头每时每刻都在自动产生大量的数据。因此,亟需开发智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理大规模的数据。

2.数据类型多

随着传感器、智能设备以及社交协作技术的飞速发展,众多的数据来源决定了大数据形式的多样性。从数据类型来看,既包括关系型数据这种结构特征明显的结构化数据,也包括图片、音频、视频等非结构化数据,还包括网页、系统日志等半结构化数据。同时,数据来源也越来越多样,金融大数据、交通大数据、生物大数据、医疗大数据、电子大数据、工业大数据等呈现井喷式增长。大数据不仅产生于组织内部,也产生于组织外部。

3.数据处理速度快

在数据处理速度方面,有一个“1s定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。这是大数据挖掘区别于传统数据挖掘最显著的特征之一。

大数据处理速度快的特征体现在两个方面。一是数据产生速度快。通过各种联网设备及不同应用场景中的传感器,大数据的产生速度十分快。二是数据处理时效性强。花费大量资金去存储作用较小的历史数据,这样是很不划算的,因而这些数据应该及时处理,以便能够及时地从数据中提取知识。大数据对处理速度有很严格的要求,服务器中很多的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据时刻都在产生,所以谁的处理速度更快,谁就会有优势。

4.价值性

随着大数据的体量不断加大,单位数据的价值密度在不断降低,但是数据的整体价值在提高。与传统的小数据相比,大数据最大的价值是可以从众多不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据。同时大数据还可以通过机器学习方法、人工智能方法或数据挖掘方法去深度分析,发现新规律和新知识,并运用于工业、农业、金融、医疗等不同领域,最终达到改善社会治理、提高生产效率、推进科学进步的效果。

5.真实性

数据的重要性在于对决策的支持,数据的真实性和质量是获得知识和问题解决思路最重要的因素,是制定成功决策最坚实的基础。大数据中的内容是与真实世界中发生的事情息息相关的,研究大数据就是从庞大的数据中提取出能够解释和预测现实事件的过程,通过大数据的分析处理,最后能够解释结果和预测未来。

1.2.4 大数据的作用

大数据虽然孕育于信息通信技术,但它对社会、经济、生活产生的影响绝不仅限于技术层面,它为人们看待世界提供了一种全新的方法,即决策行为将日益依赖于大数据分析,而不像过去那样更多的是凭借经验和直觉。

1.大数据代表了一条新的产业链

从当前的技术体系结构来看,大数据技术涵盖了从数据采集、传输、存储到分析、可视化、应用和共享的一系列环节,大数据技术体系也正在从数据分析(基于大数据平台)向数据采集和数据应用两端发展,同时出现了更加明确的行业分工。所以,当前的大数据本身就代表了一条产业链,这条产业链的规模也将随着大数据的落地应用而不断发展和壮大。

2.大数据开辟出新的价值空间

从大数据的应用层面来看,大数据正在开辟出一个新的价值空间,这是大数据被广泛重视的重要原因。大数据的价值空间非常大,基于大数据的价值空间可以完成大量的创新,而这些创新本身也将推动大数据全面与行业领域的结合。大数据技术的落地应用将全面促进行业资源的数据化,这会进一步提升数据自身的价值密度。

3.大数据促进了行业领域的创新发展

从行业领域来看,大数据的作用可以从3个方面来理解:一是大数据能够提升行业领域的管理能力,当前基于大数据的管理模式正在从互联网行业向传统行业覆盖,例如工业互联网的兴起,关键点在于价值衡量体系的打造;二是大数据能够促进行业领域的创新,这个过程也会促进物联网和人工智能等技术的落地应用;三是大数据能够为行业领域带来新的价值增量,并且这个价值增量的空间非常大。

简而言之,大数据的意义或作用可以归结为4个字:辅助决策。利用大数据分析,能够总结经验、发现规律、预测趋势,这些都可以为决策者提供辅助服务。人们掌握的数据信息越多,在进行决策时才能更加科学、精确、合理。从另一个方面看,大数据本身不具有价值或者不产生价值,而大数据必须和其他具体的领域、行业相结合,给相关决策提供帮助之后,大数据才具有价值。这就使得很多企事业单位都可以借助大数据来提升管理水平、决策水平。

1.2.5 大数据的应用领域

大数据应用无处不在,包括制造业、金融行业、电商行业、电信领域、能源领域、安防领域、物流领域、生物技术、医疗领域等在内的社会各行各业都有大数据的典型应用。表1-1简要列举了大数据在部分领域的应用情况。

表1-1 大数据在部分领域的应用情况

1.2.6 大数据的关键技术

大数据,并非仅指数据本身,而是数据和大数据技术二者的综合。所谓大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据的关键技术涵盖数据采集、存储、处理、应用等多方面的技术。根据大数据的处理过程,可将大数据的关键技术分为大数据采集技术、大数据预处理技术、大数据存储与管理技术、大数据计算模式、大数据分析与挖掘技术、大数据展示与可视化技术、大数据安全技术等,如图1-3所示。

图1-3 大数据关键技术的框架

1.大数据采集技术

大数据采集技术是指通过各种技术手段把多种数据源产生的数据实时或非实时地采集到以供利用的技术。

因为数据源多种多样,数据量大,产生速度快,所以大数据采集技术面临着许多技术挑战,必须保证数据采集的可靠性和高效性,还要避免重复数据。

2.大数据预处理技术

大数据预处理技术主要是指完成对已接收数据的辨析、抽取、清洗、填补、平滑、合并、规范化及一致性检查等操作。

因获取的数据可能具有多种结构和类型,大数据预处理就是将这些复杂的数据转化为单一的或者便于处理的结构,以达到快速分析处理的目的。

3.大数据存储与管理技术

大数据存储与管理的主要目的是利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库、图数据库等存储技术把采集到的数据存储起来,实现对结构化、半结构化和非结构化数据的存储与管理。

4.大数据计算模式

大数据计算模式是指根据大数据的不同数据特征和计算特征,从大数据计算问题和需求中提炼并建立的各种抽象模型。面向大数据处理的数据查询、统计、分析、挖掘等需求,促生了大数据计算的不同模式。我们整体上可以把大数据计算模式分为3种:离线批处理、流计算、交互式分析。典型代表技术包括MapReduce、Spark、Storm等。其中,Hadoop系统的MapReduce分布式处理模式常用于离线的、复杂的大数据处理,其能够很容易地将多个通用批数据处理任务和操作在大规模集群上并行化,并且有自动化的故障转移功能;Spark常用于离线的、快速的大数据处理;Storm常用于在线的、实时的大数据处理。

5.大数据分析与挖掘技术

大数据分析与挖掘技术是指从大数据集中寻找规律的技术。由于大数据存在复杂、高维、多变等特性,如何从真实、复杂、无模式的大数据中挖掘出人们感兴趣的知识,迫切需要更深刻的机器学习理论进行指导。目前,常用的大数据挖掘方法主要有分类、聚类、回归分析、关联规则、趋势分析等。

6.大数据展示与可视化技术

大数据可视化是指利用计算机图形学等技术,将数据通过图形化的形式展示出来,从而直观地表达数据中蕴含的信息、规律和逻辑,从而便于用户进行观察和理解。大数据可视化主要利用包括图形展示(散点图、折线图、柱状图、地图、饼图、雷达图、K线图、箱形图、热力图、关系图、矩形树图、平行坐标、漏斗图、仪表盘等)、文字展示等技术,对大数据分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据和应用数据。

7.大数据安全技术

在从大数据中挖掘潜在商业价值和学术价值的同时,需要构建隐私数据保护体系和数据安全体系,从而有效保护个人隐私和数据安全。同时,还需要加强针对数据跨境流动的安全防御能力。