对话复旦大学副教授郑骁庆:当前AI仍是“高级别模仿”,离AGI还有一段距离

  每经记者 宋欣悦    每经编辑 高 涵    

  近日,“推迟”“质疑”“未达预期”这类词语频繁出现在人工智能(AI)行业的讨论和报道中。被众人期待“炸场”的OpenAI连续12天的AI发布会细细品来也少了些“革命性”的味道,更像是在已有成果上的修修补补。

  此前,OpenAI的联合创始人伊尔亚·苏茨克维就曾在多个场合提到,AI的进步并不是线性的,未来几年内,尽管有大量资金和研究投入,技术突破的速度可能会有所放缓。

  AI发展速度真的在放缓吗?AI发展面临着哪些挑战?我们距离通用人工智能(AGI)还有多远?针对这些热点问题,《每日经济新闻》记者(以下简称NBD)专访了复旦大学计算机学院副教授、博士生导师郑骁庆。

  郑骁庆认为,从速度来讲,AI发展并没有放缓,但目前AI发展面临着三大核心挑战:AI“幻觉”现象、数据隐私、算力和能源效率。在他看来,当前的AI技术依然处于“高级别模仿”的阶段,离真正的AGI还有一段距离。“AGI不仅需要在认知能力、学习能力等方面超越现有技术,还需在情感理解和自主决策等领域有所突破。”

  AI发展并未减速,但仍面临三大挑战

  NBD:在您看来,近期AI的发展速度相比过去两年,有怎样的变化?

  郑骁庆:我认为,人工智能的发展速度并没有放缓。

  新一轮生成式人工智能的标志性工作,实际上就是OpenAI在2022年底推出的ChatGPT。这样一个突破性的事件,距今仅有两年左右的时间。在这段时间里,ChatGPT的成功使得整个学术界和产学界投入了大量的人力和物力来推动生成式人工智能的发展。

  不能说当前人工智能技术的发展变慢了,实际上,它仍在加速前进。当然,在发展的过程中,我们不可避免地会遇到一些问题和新的挑战,这些都是目前确实存在的。

  NBD:目前人工智能面临哪些重大挑战?

  郑骁庆:因为我的研究工作重要集中在自然语言处理和机器学习方面,所以我从这个领域来谈。

  首先,当前大型语言模型面临的一个主要问题是“幻觉”现象,即模型可能会生成看似正确但实际上错误的信息。因为许多用户并不具备鉴别信息真伪的能力,所以很容易被这种“幻觉”影响。特别是在医学、法律、金融等高风险应用领域中,存在一定风险。

  其次,大模型高度依赖大数据。实际上,包括OpenAI在内的AI公司,在训练模型时,也并未透露其使用了哪些数据。因为这些数据多多少少会涉及版权或个人隐私。这种问题不仅存在于模型的构建和训练过程中,在用户在使用大模型时,也可能泄露个人信息。因此,数据的隐私问题是另一个重大挑战。

  最后,AI大模型的算力消耗巨大,资源成本高昂。如何降低使用门槛,让更多用户特别是中小企业能够负担得起人工智能技术,是我们需要思考的问题。在巨大的计算和能源消耗情况下,如何实现更高效、更节能的AI系统,可能成为未来的发展方向。

  数据最小化:只取所需,不要贪多

  NBD:您认为有哪些关键技术可能会去解决或者缓解这些挑战呢?

  郑骁庆:要缓解“幻觉”问题,一种策略是“对齐”。目前,较为成熟的技术手段是利用强化学习来实现与人类偏好的对齐。在对齐人类偏好的过程中,一个核心标准是“诚实性”,即模型必须提供真实信息,而非胡编乱造。

  另外,“检索增强生成”(RAG)也是一项关键技术。在提问时先提供相关的背景资料,模型会通过检索这些资料来辅助生成答案,这样可以在一定程度上提高生成答案的准确性和可信度,缓解单纯依赖模型内部知识库可能产生的“幻觉”问题。

  还有一种技术是答案生成的后续验证。模型生成答案后,我们可以利用其他模型对答案中的关键观点和要素进行验证,以确保正确性。

  对于数据隐私问题,高质量的数据是高质量应用的基础,我认为企业需要找到创新与数据隐私之间的平衡点。首先,企业需要遵循数据最小化原则,只收集和使用与目标任务直接相关的最少量的数据,只取所需,而不要贪多。

  其次,企业一定要做好数据的加密和脱敏处理。尤其是在AI应用中,模型的训练数据如果没有保护好,攻击者可能通过模型推测出隐私信息,进而对企业和用户带来巨大的安全隐患。

  我们还可以考虑使用新技术来解决这个问题,比如联邦学习,它允许多个数据拥有者各自贡献出模型所需的训练数据,在数据联邦的情况下完成模型的训练,而不会泄露数据拥有者的数据。

  AI处于“高级别模仿”阶段 不具备“小样本学习”能力

  NBD:近日,OpenAI首席执行官萨姆·阿尔特曼在接受媒体采访时表示,预计通用人工智能(AGI)将在2025年到来。在您看来,我们离AGI近了吗?

  郑骁庆:阿尔特曼作为OpenAI的首席执行官,从商业的角度来说,他对于AGI的实现可能会比较乐观。但对于我们研究者来讲,我持一定的保留意见。

  当前的AI技术,实质上仍是一种高级别的模仿,与人类的智能完全不一样。人类的智能,举个例子,我们从小就能流利地使用语言,并产生语言的新表达。但实际上,我们在成长过程中接触到语言环境的数据量,远远小于当前人工智能模型接触到的数据量。也就是说,人类大脑具有一种强大的小样本学习能力,即仅凭少量样本,就能泛化到未见过的情境,而这是目前模型无法做到的。

  目前,关于AGI还存在一个争议:AGI是要做仿真(按照人脑思路来做),还是按照实用主义的思路来做?具体而言,仿真路径主张在深入理解和模拟人脑机制的基础上构建人工智能系统;而实用主义路径则更加注重结果,认为只要人工智能系统的输出效果与人类相当,就可以认为其具备智能。

  现在的发展主要是在走实用主义的道路,而这条发展路径面临的最大的问题在于,尽管AI在某些单一任务上可能表现非常优异,但要从一个任务迁移到另一个任务,尤其是面对全新任务时,往往需要大量的新数据重新进行训练。比如,我们教会AI文字表达,它的语音处理能力可能就不理想;而教会它语音,它的文字表达能力又可能受到影响。因此,在处理涉及多种数据形式(如文本、图像、音频)的跨模态任务时,AI的表现仍然不够出色。

  人类智能完全不同,人类能够依靠在其他任务中积累的经验,在新任务上同样表现出色。即使面对未知的任务,人类也能规划出探索和研究的路径,从而顺利完成任务。因此,我认为通用人工智能必须具备通用性和迁移性。这种通用性迁移性意味着,一旦AI在某个任务上学会某项技能或知识,它应该能够将其迁移到各种不同类型的任务上。

  另外一个值得探讨的概念是,元学习(Meta Learning)。之所以提及元学习,是因为当前AI,包括ChatGPT在内,存在一个显著的问题:推理能力不足。元学习是一种更高层次的学习方法,它关注的是“学会如何学习”(learning to learn),而不仅仅是学习什么。

  翻译

  搜索

  复制

阅读全文

本文转载自互联网,如有侵权,联系删除