潘云鹤院士作序​,国内第一本系统性介绍混合增强智能高级教程,由西安电子科技大学出版社出版发行

2023-09-25
收藏

人工智能,一直是人类追逐的梦想之一。人类希望能理解人和其他生命体的智能行为,并用其来帮助分析数据、学习和模仿人类的智能,甚至制造与人类智能相仿或在某些性能上超越人类的智能体。人工智能的研究可以追溯至图灵提出的自动机和图灵测试,而其正式的命名则是在达特茅斯学院召开的著名会议上。虽然历史悠久,但早期的人工智能研究主要在学术圈,产业界参与相对较少。人工智能发展至今还经历了两次低潮,原因都是因为对人工智能发展的预判和实际情况产生了较大落差导致的。

而自2012年以来,人工智能取得了突破性的进展,在多个领域形成了落地成果,如人脸识别、语音识别、自然语言处理等。并在围棋博弈上产生了300年棋谱未见过的落子模式,在绘画领域也曾登上了数字绘画比赛的冠军主座。人们将其称为是人工智能的第三次热潮。与前两次热潮不同,这一次是从产业界开始的。

不管深度学习模型如何发展,归纳起来,事实上目前人工智能的技术路线不外乎三条主线。一是模仿,即模仿人的大脑结构。如果在宽度上实现不了,那么就通过加深来实现。二是隐结构。因为人类的思维中有很多并非所见即所得,存在内在的控制变量,需要通过构建隐结构模型来表示。三是正则化。多数问题往往是一个结果对应于多个原因,是数学中常说的病态问题。要从中寻找唯一解,最合理的方式是正则化,或引入新型损失函数,使得其在正则化意义下具有唯一或最优解。现有方法均可以看成是这三条主线的组合结果。而在设计架构上,则能看到大而全(如参数量超过1700亿的GPT-3)、小而精(如蒸馏)和持而久(如终身学习)的基本思路。另外,为减少能耗太高的问题,抵消半导体摩尔定律速率的增长的影响,脉冲神经网络(Spiking Neural Network,SNN)也被视为第三代人工神经网络,期望实现了更高级的生物神经模拟水平。

除了三条主线外,人工智能研究仍然存在大量的问题未得到解决。如人在理解世界时会依赖认知地图、人的思维有快和慢两种可相互切换的思维模式、人有直觉思维的能力等,但目前机器还不具备。而机器能高效处理海量数据,在限定环境或场景上能更精准地识别目标的能力,则是人类所缺乏的。所以,要在现阶段解决人工智能中存在的这些问题,一个合理的策略是依赖人-机之间的协同合作,通过混合增强智能来实现。

《人机混合增强智能》(复旦大学计算机科学技术学院张军平教授主编,西安电子科技大学出版社)正是在这一背景下撰写的,旨在对人机协同混合增强智能理论与算法的现状进行介绍,就其可能发展的前景进行预测和建议,同时给出一些相关的案例分析,以便读者能有更直观的体会。

此项工作得到国家自然科学基金和教育部规划项目支持,由五家科研院校(复旦大学、西安交通大学、浙江大学、中国科学技术大学和同济大学)共同合作,自2019年10月开始,历时三年多时间完成。编者期望在面向不确定性和脆弱性的开放环境下,基于认知计算框架,研究不确定条件下的直觉推理和因果推理、适应多任务多场景的在线知识演化、人在回路地增强智能学习及动态自适应人机协同,归纳了一些我们认为具有相对前瞻性的理论与方法,形成了一些具有建设意义的合理建议。同时,我们也给出了一些案例分析,以便读者能对人机协同的混合增强智能有更为直观的印象。

最初,编者将上述目标分解为五个子任务,即:(1)直觉推理算法; (2) 因果推理算法;(3)在线知识演化;(4)人在回路的增强智能学习;(5)动态自适应人机协同算法。我们按五个子任务的方式分别进行了调研、撰写当前国内外发展状况,并探讨未来可能值得研究的方向。同时,我们也在五个子任务上分别进行了探索性的研究,并均取得了一定的阶段性成果。

在报告形成期间,编者组织了多次专家咨询会,邀请专家包括清华大学的孙富春教授、北京大学的于福生教授、浙江大学的吴飞教授、北京师范大学的黄华教授、西安大学的薛建儒教授、同济大学的苗夺谦教授等,并根据专家的意见不断完善报告。按照专家的建议,本项目的各子任务之间存在交叉,需要有一条主线将规划报告在逻辑上连起来。因此,在认真听取专家建议后,为便于保持规划报告在逻辑上的有序性,编者对最终的报告进行了融合、重组和去冗余,确保每个内容之间是独立的,内部是相关的。

最终,编者将规划报告分解为三大块,从基础到高级认知层面来撰写,包括:(1)人机混合增强智能的基础理论;(2)人机混合增强智能的在线演化和与动态自适应;(3)人机混合增强智能的直觉推理。另外,为便于理解,将人机协同混合增强智能简写为人机混合增强智能,或简称为人机协同。在此基础上,编者经过进一步完善后形成了本书。

微信图片_20230925150046.png

主编简介

张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会普及工作委员会主任、混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证、智能交通及气象预测。至今发表论文100余篇,其中IEEE Transactions系列28篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC, TIP等。学术谷歌引用5500余次,H指数35。著有科普书《爱犯错的智能体》,该书获得2020年中国科普创作领域最高奖,即2020年中国科普作家协会第六届优秀作品奖金奖。

《人机混合增强智能》潘云鹤院士序言

近十余年来,人工智能发展热潮的主要推动力包括:深度学习框架的改善、大数据集的产生以及GPU显卡并行计算性能的持续提升。

Geoffrey Hinton教授于2006年在《Science》发表了深度神经网络论文。此后不久,斯坦福教授李飞飞于2009年建成ImageNet图像数据集(当时她还在普林斯顿大学)。该数据集使得深度学习有了一个能在大规模数据集上检验模型或算法预测性能的实验平台。随后Geoffrey Hinton和其学生Alex Krizhevsky共同提出的AlexNet,在ImageNet数据集上的预测性能实现了显著的提升,较2011年传统机器学习在此数据集上获得的最佳性能提高了近10个百分点。以当时连续前两年在此数据集上获得的性能提升的速度估算,深度学习性能的提升需要传统机器学习方法20年时间才能获得。这一成功,让人工智能的研究者,纷纷转向了以深度学习为基础的相关研究。而AlexNet模型中的数项关键技术,便成为了人工智能研究者们的关注点和改进方向。GPU 强大的并行能力使得深度学习可以更高效地处理大数据集,和更方便地并行处理深度学习网络本身的训练、优化和执行。

有了深度学习算法、大数据和计算能力的协作并进,人工智能在2012年后迅速崛起,首先在识别领域产生了不断的性能刷新,并形成了大量成功的应用成果。如人脸识别技术,已经在多个场景,如机场、高铁、银行进入了实际应用。

   在智能自主系统领域,我们也同样看到了相似的快速发展。如波士顿机器人公司制造的机器人已经可以后空翻、侧翻、三级跳。这些动作在十年前是不可想象的。而各种无人机、无人车、无人船更是涌现和运行于各种空间。无人机群已能自由穿梭森林,而多种异构智能机器协同构成的无人码头、无人车间、无人仓库,已在协助人类工作,提高效率、提升质量、降低强度。当然,这些运行的智能自主系统和群智系统,都需要人类后台监视、综合判断和最终决策。另外,在智力运动领域,如围棋、麻将、电竞,人工智能都取了骄人的成绩。不少围棋国手已经开始采用由AlphaGO曾经下过的开局落子方式来比赛。而经典电脑游戏《星际争霸》,在限定游戏规则的前提下,人工智能算法也基本可以战胜职业玩家。

近十年来,深度学习理论与算法有了不少新的研究成果,如注意力、多尺度、生成对抗、图卷积神经网络、自监督学习、Transformer、预训练微调模型等等。近年来,更大规模的网络设计形成一个趋势,如带有多头自注意力的Transformer网络,已进入计算机视觉领域。谷歌研发的GPT-3期望通过超大网络或大模型的构建来推进自然语言处理的各种任务。2022年开始兴起的基于Prompt的生成式模型如扩散模型,达到了较高智能的ChatGPT都再次提升了人们对人工智能能力的认知。人工智能在走向数据与知识双轮驱动的发展中,其功能也从学习、识别、决策,扩充到生成与转移,正在生气勃勃地前进。

尽管人工智能的这一轮发展已取得非常瞩目的成绩。然而,与人类智能相比,机器智能还存在诸多不足。首先,人具有快慢思维能力。比如成年人在走路时,通常不会仔细分析路面的细节,从而实现快速行走。但如果不慎滑了一下,那么行人就会快速从快思维方式切换到慢思维,如对路面的情况进行细致的分析,以决定如何落脚。人甚至会体察到脚上器官对地面的细微变化感知情况。类似地,在人类做很多决策时,这种快慢思维的转换,都会经常用到。从某种意义上,可以认为人类能够根据已有的知识和经验构建知识层次,从而通过粗细不同粒度的灵活推理进行高效率的行为。实际上,在2021上海世界人工智能大会上,图灵奖得主Yoshua Benjio作特邀报告时,开场就提及了人类快慢思维的重要性,以及它对未来人工智能发展的意义。

合理结合人工智能和人的智能,探索自然而有效地人机交互协同,能够极大地提高人工智能系统对复杂任务的认知能力、决策能力,以及复杂情形的适应能力。遗憾地是,目前人工智能在这一块仍是处在幼儿期。

除此以外,人类通过对某一问题进行长期的学习,可以形成直觉和顿悟。最经典的例子是阿基米德在浴缸中顿悟发现浮力定律,当他从浴缸跳出。裸跑,喊出了一句古希腊语Eureka(灵光一闪)的时候,估计也完成了形象的联想、类比、分析、抽象,乃至发现。此中机理,至今未能模拟。

人类在认知问题时,也善于利用不同的感知器官形成互补。如识别一个人,不仅可以通过视觉,还可以通过辨识声音来协作完成。视觉是人类获得信息构成知识的最重要的感知系统。在人工智能领域,视觉知识具有综合生成能力、时空比较能力和形象显示能力。要用好这一能力,促进和发展新型视觉知识有待加紧研究。如不同媒体间的数据之间如何跨媒体学习和多重知识表达。视觉知识在AI解决问题中的重要性已显现。如目前人工智能领域中因数据集采集和因人类认知上存在的不确定性和归纳偏置等所导致“AI偏见”,都可能通过建立在视觉知识上的因果推断、反事实推断等来消除。这也是此书中分析的内容。

总体而论,机器与人在智能方面各有其优势所在和不足之处。举例来说,2014年发生的马航370事件,似乎是过份相信飞机的人类驾驶员。结果,整个飞机的乘客,都被带到了至今未知的地方。而2019年埃航飞机370Max坠毁事件,则似乎是过份相信飞机的自动驾驶。结果,飞机在进入自动驾驶后,高度仪判断失误,而飞行员又未能接管飞机并改成人工操纵,以至飞机最终坠毁。不仅如此,最近报道的汽车自动驾驶事故频发,似乎也是在设计理念中未能于关键之处达到人机协同增强智能之故。

机器智能具有规范性、确定性、可复现性和逻辑性,而人的智能具有灵活性与创造性。探索通过人机交互协同,合理结合机器智能和人的智能,以求提高人机系统对复杂任务的认知能力、决策能力,对复杂情形的适应能力,十分重要。

因此,在未来的人工智能研究上,将人与机器混合在一起,形成人机动态自适应协同、人在回路地增强智能学习就成了必然。在《人工智能2.0》中,人机混合增强智能也被明确为未来20年重要的研究方向之一。

《人机混合增强智能》一书正是在此背景下完成的。书中,将从基础到高级认知三大层面解析人机混合增强智能:(1)人机混合增强智能的基础理论;(2)人机混合增强智能的在线演化与动态自适应;(3)人机混合增强智能的直觉推理。

在此框架下,分析了目前人机混合增强智能的现状、存在问题,并提出相应的规划和建议。在基础理论部分,该书介绍了人机协同的特征表示、认知心理相关的视觉知识、不确定估计理论、专家行为表示提取等;在线演化与动态自适应部分,该书介绍了强化学习、在线知识演化、动态自适应,及人的状态、习性技能学习和脑机接口等;在直觉推理部分,介绍了因果相关理论、综合演化、基于直觉推理的场景推演,人机协同的感知、决策和控制,以及推理与创意设计等。最后,还介绍一些相关的案例,以帮助读者能更好地了解人机协同混合增强智能的实际应用。

据我所知,这是目前第一本系统性介绍混合增强智能的书籍,它有效地梳理了人机协同的混合增强智能理论、方法与应用。它的出版,将有助于人工智能科研工作者及爱好者,全面了解人机混合智能的优势、不足以及潜在发展方向,对人机混合增强智能和人工智能的发展均会起到重要推动作用。

 

所有评论({{total}}
查看更多评论
热点快讯
+86
{{btntext}}
我已阅读并同意《用户注册协议》
+86
{{btntext}}