前言
近年来,随着信息通信技术的发展,各类互联系统的物理资源和计算能力显著增长。作为第四次工业革命的先驱,德国于2013年4月正式发布“工业4.0”实施建议,旨在充分利用信息化技术促进产业变革,提高德国工业的竞争力,在新一轮工业革命中占领先机。同年6月,美国通用电气(GE)提出了“工业互联网”的概念,与德国提出的“工业4.0”有异曲同工之妙,被称为美国版“工业4.0”。2015年5月,我国国务院印发《中国制造2025》,部署全面推进实施制造强国战略。作为我国实施制造强国战略第一个十年的行动纲领,该文件制定了未来10年内中国制造业的顶层规划和发展路线图,旨在强化工业基础能力,促进产业转型升级。同年10月,中德两国宣布将推进“中国制造2025”和德国“工业4.0”战略对接,共同推动新工业革命和业态。我国具有完备的工业体系和巨大的市场,在两化融合的进程中,工业制造领域的数字化转型与互联互通持续促进着相关产业的建设和发展,以信息化为支撑的新型工业化发展战略逐步形成了高效、环保的可持续发展模式。
在工业制造环境中,基于物理空间与网络空间内包含的信息,网络化的设备之间能够形成高效的协同,各类生产线和生产过程持续不断地产生着大量的数据。为了能够更好地对海量数据进行管理和利用,传统的工厂需要被转化成工业4.0环境下的智能工厂。智能工厂作为承载工业4.0的最主要的应用实体,能够对现代化的生产线和生产过程中产生的数据进行采集与分析,对制造过程进行实时监控和调整,进而实现提高生产效率、降低生产成本的目标。由于信息流在多种不同的信息物理子系统之间存在流通不畅的问题,因此需要研究智能工厂中海量多源异构数据的智能采集、异常检测和信息融合方案,以使制造网络中的所有设备形成一个自组织的、具有高度灵活性和可重配置性的制造系统。针对工业无线传感器网络数据融合与异常检测的需求,探讨以下内容十分必要:突破无线传感器网络、数据科学、异常检测等领域现有理论及技术的局限性,实现理论与关键技术的创新,解决多源异构数据的统一描述与管理、苛刻工业环境下网络的可用性维护、时间序列的模式异常检测和时间序列的异常值检测等问题,以及研究科学高效的工业大数据体系结构及相关技术。
本书针对工业大数据的体系结构与关键技术进行了研究,在对工业4.0、物联网和云计算进行分析的基础上,从定义、技术以及管理三个方面对大数据进行了阐述,给出了工业大数据研究与应用的体系结构。针对工业制造领域的特定应用场景,充分研究了数据的感知、采集和异常检测技术,阐述了现有方法的利弊,分析了存在的问题,并提出了一系列创新的解决方案。全书分为七章,具体内容如下:
第1章介绍工业大数据的研究背景。首先介绍了工业4.0的发展历程、设计原则和成熟度模型;然后分析了信息物理系统的发展阶段、体系结构和关键技术;最后对大数据的定义、技术以及管理进行了详尽的阐述。
第2章介绍工业无线传感器网络数据融合的体系结构的基础知识以及研究现状。首先分析了工业4.0和智能工厂的关系,着重介绍传感器云的概念与研究现状,并对工业无线传感器网络与传感器云的概念及相关技术进行了归纳;然后提出了面向工业领域的多源异构数据的统一描述与管理机制,阐述了基于传感器云技术的工业无线传感器网络;最后设计并实现了基于分布式云的数据感知与管理软件,为后续章节所涉及的主要问题奠定了研究基础。
第3章介绍面向工业4.0的数据采集机制,针对智能工厂生产车间的生产线和生产过程,基于传感器云技术提出了大规模无线传感器网络的部署方案以及数据采集机制。首先对设施位置问题进行介绍,随后引出了k中点问题;然后详细描述k资源调度器,提出了渐进交换算法、贪心算法和RK算法,并对三种算法在理论上进行了分析和对比,根据工业无线传感器网络的应用场景,对制造网络的层次化体系结构进行了详尽的阐述,并使用八类实体通过八类消息来完成数据采集所涉及的操作;最后,针对五个重要参数进行了大量的实验,继而对提出的三种算法进行评估。
第4章介绍工业过程数据的故障预测与质量预测,针对生产过程的海量数据,提出了基于高斯过程回归的故障预测模型与质量预测模型。首先介绍了现代工业系统领域基于数据驱动的故障预测方法,对自回归模型、支持向量机模型、相关向量机模型、神经网络模型以及随机过程模型进行了描述;然后基于高斯回归理论提出了单步预测模型、多步预测模型、基本模型和反馈模型;最后针对已有的反向传播神经网络和径向基核函数高斯过程模型,基于大型工业过程田纳西–伊斯曼仿真平台对本章提出的故障预测方法进行了对比与分析,并针对已有的支持向量回归模型、核偏最小二乘模型和反向传播神经网络模型,通过核函数重构以及将预测值引入高斯过程回归模型来提高预测精度。
第5章介绍时间序列的模式异常检测方法,针对工业无线传感器网络中的数据的模式异常,提出了基于骨架的模式表示异常检测方法。首先介绍了时间序列中的异常分类,给出了点异常、模式异常和序列异常的联系与区别;接着针对可感知重要点方法和分段聚合近似模型表示法的优缺点进行了详细分析;然后提出了改进的可感知重要点方法,并基于该方法设计了骨架模式表示法,根据由骨架模式表示法得到的矩阵,计算不同时间序列的相似性分数,进而实现异常检测;最后针对阳性检出率、假阳性误报率和异常分数比值三个性能指标,基于合成数据集和真实数据集进行了大量实验。
第6章介绍时间序列的异常值检测方法,针对工业无线传感器网络中数据的异常值,提出了新型的分布式检测模型:基于最近邻居集合的隔离型分布式异常值检测模型。首先介绍了常见的异常值检测技术,并分析了现有方法的不足,着重对隔离森林方法和本地异常值因子方法进行了分析;然后根据工业制造网络的特定应用场景对异常值检测问题进行建模,给出了子网络、超球体、隔离分数和异常值分数等定义,设计了基于最近邻居集合的隔离型分布式异常值检测模型,详细阐述了分布式检测模型的三个工作阶段(训练阶段、检测阶段和更新阶段);最后针对准确率、检测率、误报率和曲线下面积四个性能指标,基于两个著名数据集进行了大量实验。
第7章对全书进行总结,概括本书内容的不足,并指出未来可继续探索的方向。
本书由高聪、王忠民、陈彦萍所著,共35万字,高聪负责全书大部分内容的撰写以及整书的统稿工作,完成32万字,王忠民参与了第6章的撰写,完成1万字,陈彦萍参与了第4章和第5章的撰写,完成2万字。本书的出版工作得到了陕西省科技统筹创新工程计划项目(2019ZDLGY07-08)、陕西省科学技术厅国际科技合作计划项目(2018KW-049)、工业和信息化部通信软科学研究计划项目(2019-R-29)、陕西省教育厅自然科学专项科研项目(17JK0711)和西安邮电大学学术专著出版基金的资助。机械工业出版社的编辑们为本书的出版付出了辛勤汗水,在此表示衷心的感谢。
本书既包含完整的理论推导,又注重实际应用方面的研究,各章内容既相辅相成,又相互独立,读者可根据自己的兴趣和时间来选择性地阅读。为保证各章内容的完整性,若干重要内容在相关章节均有提及。本书的各部分内容都向西安邮电大学计算机系统结构专业的硕士研究生讲授过,其中绝大部分是作者新近完成的科研成果。尽管如此,由于数据科学领域近年来发展迅速,且分支众多,与其他领域的交叉甚密,因此该领域不仅内容庞杂,而且具有十分可观的深度和广度。作者水平有限,且成书时间仓促,虽严谨治学、精业勤业,但书中疏漏之处在所难免,敬请读者批评指正。