第一节 揭开AI的神秘面纱
当人们大谈人工智能的时候,究竟是在谈什么?
在长达半个多世纪的人工智能研究历程中,大量学者对其概念进行了不同维度的界定。综合来看,大致可分为两类。
第一类,从行为和功能的角度出发,定义人工智能机器的外在行为和能够实现的功能。最典型的代表就是被誉为“计算机科学之父”的艾伦·图灵(Alan M. Turing),他认为:
“如果一台机器能够与人展开对话(通过电传设备),并且会被人误以为它也是人,那么这台机器就具有智能。”
约翰·麦卡锡(John McCarthy),是达特茅斯会议的重要成员之一,也是真正提出“人工智能”这一术语的学者。他认为:
“人工智能就是要让机器的行为看起来就和人所表现出的智能行为一样。”
全球著名的管理咨询公司麦肯锡公司(McKinsey & Company)对于人工智能给出了如下定义:
“人工智能指机器表现出和人一样的智能,例如在不使用包含了各种细节指导的手写编码程序的情况下能够接近问题的答案。”
第二类,则将“人工智能”定义为一门新学科或新科学。典型的代表是达特茅斯会议的另一位重要成员,计算机科学最高奖“图灵奖”得主(1975年),赫伯特·西蒙(Herbert A. Simon),他将人工智能定义为:
“人工智能是对物理符号的操作,是认知心理学与计算机科学相结合的新学科。”
约翰·尼尔森(Nils John Nilsson)是美国斯坦福大学计算机科学教授,是人工智能学科的奠基性研究者之一。他认为:
“人工智能是关于知识的学科——怎样表示知识以及怎样获得知识并使用知识的学科。”
美国另外一家著名的管理咨询公司波士顿咨询公司(BCG)在其报告《人工智能:未来制胜之道》中对人工智能给出了如下定义:
“人工智能是研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。”
上述两种定义,一方面说明了人工智能具有较高的研究价值,另一方面也反映出,人工智能的本质是人类赋予机器的未来形态,即机器具备人类智能。六十多年来,人工智能研究学者研究与争论的焦点之一,就是通过何种方法能使得机器具备人类智能。这些研究学者主要来自计算机科学与神经生物学(或神经物理学)领域。前者主要通过计算机编写程序的方式来模仿人类的智能行为,以神经网络相关研究为代表;后者则重点研究人类大脑皮层的工作原理,他们以大脑的生物学细节作为约束和指导,同时将智能视作一个计算性质的问题,以联结主义范式下的“自—联想”记忆网络为代表。从今天人工智能的研究进展来看,显然前者占据主流。而后者,学术界尚未形成一套能够有效诠释智能本质或大脑工作原理的完整理论。
人工智能相关研究的最终目标,是由机器替代人类完成部分相对简单的重复性任务,使人类拥有更多时间进行创造性的劳动,享受更加高效便捷的生活,真正步入“智能时代”。历史上,人工智能曾经两次走出试验室,被应用于生产活动之中。第一次源于1977年,斯坦福大学计算机科学家爱德华·费根鲍姆(Edward Albert Feigenbaum)通过实验证明了实现智能行为的主要手段在于知识,提出了“知识工程”(Knowledge Engineering)概念,并为专家系统(Expert System)奠定了理论基础。作为知识工程的倡导者,费根鲍姆早在1965年便与莱德伯格(Joshua Lederberg)等人合作,开发出了人类历史上第一个专家系统DENDRAL。该专家系统由大量“如果—就”(If-Then)的规则定义,其中存有大量的化学分子式与质谱图,能够从上千种可能的分子结构中选出一个正确的分子结构。DENDRAL系统的成功开发,被认为是人工智能研究史上的重大突破。在随后的十年间,约有上千种专家系统诞生,并被应用于化学、医学、农业、计算机等各个领域,例如用于辅助医生诊断传染病和提供治疗建议的著名专家系统MYCIN等。然而,当时的专家系统学习能力非常有限,无法满足大规模的生产需求,所以1990年后专家系统逐渐淡出人们的视线。同一时期出现的多层神经网络(Multi-layer Perceptron)技术热潮,因受到当时的数据量与计算力的限制,也无奈“昙花一现”。此后,人工智能研究进入长达十多年的“寒冬期”。
人工智能历史上的第二个应用阶段,源自2006年“深度学习”(Deep Learning)的出现。2006年,被誉为“神经网络之父”的多伦多大学教授杰弗里·辛顿(Geoffrey Hinton),与几位学者联合发表的论文A fast learning algorithm for deep belief nets中,首次提出了“深度学习”概念。深度学习,又名“深度神经网络”,它源于人工神经网络(Artificial Neural Network,即ANN)研究,能够解决深层结构相关的优化难题,典型代表是卷积神经网络(Convolutional Neural Network,即CNN),它是第一个真正的多层结构学习算法,它利用空间相对关系减少参数以提高训练性能。深度学习算法模型的训练优化,需要大量的标注数据样本。随着互联网尤其是移动互联网的发展,每天全球产生的数据量达万亿GB之多,无疑为深度学习的发展提供了良好的数据基础。同时,产业界也在积极建设数据库,例如,2007年李飞飞和普林斯顿大学的同事开始建立大型注释图像数据库ImageNet,目的就是为视觉对象识别软件的研究提供帮助。深度学习的另一个特点,就是需要强大的计算能力。而大规模并行GPU、FPGA等可编程逻辑器件的出现,以及云计算技术的逐渐成熟,使深度学习拥有了计算能力保障。
2012年,深度学习在图像识别领域的运用取得重大突破。6月,谷歌深度学习项目的吴恩达(Andrew Ng)和杰夫·迪恩(Jeff Dean)利用1000台计算机、16000个芯片搭建了一个深度学习系统,该系统在“学习了”数百万张猫脸图片后,自动将线条、亮度、边界、色彩等多个特征进行分类。最后,当该系统“看”到猫的图片后,自动识别并将其归入猫的图片分类之中。而在此之前,计算机系统内本身并没有“猫”和“猫长得是什么样子”的概念和数据。同年10月,辛顿教授组建的团队将深度学习用于ImageNet大规模视觉识别挑战赛(ILSVCR)中,创造了16%错误率的纪录,与前一年25%的最佳水平相比,有了明显的提高。该成就立刻引起了工业界强烈的兴趣。辛顿教授和他的两个研究生于2012年底成立了一个名为DNNresearch的公司,三个月后就被谷歌以五百万美元的价格收购。
除图像识别以外,2012年深度学习在语音识别领域也展示了出色的成绩。这一年,谷歌将深度学习算法首次用于语音识别,在一个语音输入基准测试中,单词错误率(Word Error Rate)最低达到了12.3%。而在此之前,世界上各语音识别模型的单词识别错误率在30%以上。而正是由于深度学习算法在具体技术领域的运用取得了重大突破,打通了底层算法与技术应用之间的通路,2012年也由此成了人工智能历史上第二次进入应用阶段的起始之年。
当然,深度学习仅仅是实现人工智能的技术方法之一。今天,不少人会狭隘地认为“人工智能=深度学习”。其实,假设我们身处于20世纪80年代,我们很可能会片面地认为“人工智能=专家系统”。事实上,人工智能在不同的发展阶段——不论过去还是未来——都会因技术进步或新技术的诞生,而进一步得到发展。就目前的技术发展而言,人工智能以机器学习、数据挖掘为两大技术核心,两者技术范畴上有所交叉。机器学习又包含对抗学习等诸多种类,其中备受瞩目的就是深度学习。按照拓扑结构分类,深度学习可分为卷积神经网络、循环神经网络和全连接神经网络,并通过算法框架实现深度学习过程。在机器学习与数据挖掘的技术之上,实现了目前市场上最常见的三大技术应用,即计算机视觉、智能语音技术和自然语言处理,如图1-1所示。
图1-1 人工智能技术图谱(部分)
各种机器学习与深度学习算法框架的出现与开源,极大地降低了算法模型的搭建与训练门槛。2013年12月,毕业于美国加州伯克利大学的贾扬清教授,在GitHub平台上开源了最初单机版本的深度学习框架Caffe,该框架可用于人脸识别、图片分类、物体识别等图像处理技术技术,通用性强,性能高,代码可读性好,是目前全球最受欢迎的深度学习框架之一。2017年,Facebook开源了升级版的深度学习框架Caffe 2。
2015年11月,谷歌开源了其开发的深度学习框架TensorFlow,该框架不仅提供了丰富的深度学习相关的API接口,而且还提供了可视化分析工具Tensorboard,使分析和模型调整更加便捷。该模型可用于语音识别、自然语言处理、计算机视觉、机器人控制、信息提取等众多应用场景。此外,还有百度于2016年开源的深度学习框架PaddlePaddle、微软于同年开源的深度学习工具包CNTK等等。
另外,人工智能技术的实现,还要依托于硬件的支持(处理器/芯片、传感器元件等)以及云平台提供的存储与计算服务,等等。
从底层算法的不断成熟,到各类算法框架的开源,从大型数据库的建设,到硬件设备与云计算服务的逐步完善,人工智能于2012年后在产业界迎来了新一轮爆发阶段。