近日,华盛顿大学与艾伦人工智能研究院(Allen Institute for AI)联合发布论文,对这一悖论进行研究。
从 ChatGPT 到 GPT4,从 DALL・E 2/3 到 Midjourney,生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待,但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该问题还上演了一场激烈的论战。先是图灵得奖主们「混战」,后有吴恩达下场加入。
在语言和视觉领域,目前的生成模型只需要几秒钟就可输出,甚至能够挑战具有多年技能和知识的专家。这似乎为模型已经超越人类智能的说法提供了令人信服的动机。但是,同样需要注意到的是,模型输出中常有理解性的基本错误。
这样看来,似乎出现了一个悖论:我们要如何协调这些模型看似超人的能力与持续存在的大多数人类都能纠正的基本错误?
近日,华盛顿大学与艾伦人工智能研究院(Allen Institute for AI)联合发布论文,对这一悖论进行研究。
论文地址:https://arxiv.org/abs/2311.00059
本文认为,之所以会出现这样的现象,是因为当今生成模型中的能力配置与人类的智能配置相背离。本文提出并测试了生成式 AI 悖论假设:生成模型通过训练,直接输出媲美专家的结果,该过程直接跳过了理解生成该质量输出的能力。然而,对于人类来说,这截然不同,基本的理解往往是专家级输出能力的先决条件。
在本文中,研究者通过对照实验来检验这一假设,分析生成模型对文本和视觉的生成、理解能力。本文首先通过两个角度讲生成模型的「理解」概念化:
1)给定一个生成任务,模型在多大程度上能在同一任务的判别版本中选择正确的回复;2)给定一个正确的生成回复,模型在多大程度上能回答有关该回复的内容和问题。这就产生了两种实验设置,分别是选择性实验和询问性实验。研究者发现,在选择性评估中,模型在生成任务设置中的表现往往与人类相当甚至优于人类,但在判别(理解)设置中,模型的表现却不及人类。进一步的分析表明,与 GPT-4 相比,人类的判别能力与生成能力联系更为紧密,而且人类的判别能力对对抗性输入也更为鲁棒,模型与人类的判别能力差距随着任务难度的增加而增大。
同样,在询问性评估中,虽然模型可以在不同任务中产生高质量的输出,但研究者观察到模型在回答有关这些输出的问题时经常出现错误,模型的理解能力再次低于人类的理解能力。本文讨论了生成模型与人类在能力配置上出现分歧的一系列潜在原因,包括模型训练目标、输入的大小和性质。
这项研究的意义在于,首先,这意味着从人类经验中得出的现有智能概念可能无法推广到 AI,即使 AI 的能力在很多方面似乎模仿或超越了人类智能,但其能力可能与人类的预期模式存在根本性差异。另一方面,本文研究结果也建议,在研究生成模型以深入了解人类智能和认知时要谨慎,因为看似专家级的类人输出可能掩盖了非人类的机制。
总之,生成式 AI 悖论鼓励人们把模型作为一个人类智能的有趣对立面来研究,而不是作为一个平行的对立面来研究。
「生成式 AI 悖论强调了一个有趣的概念,即 AI 模型可以创造出它们自己可能无法完全理解的内容。这就提出了人工智能存在理解的局限性及其强大的生成能力背后所面临的潜在问题。」网友表示。
我们首先了解一下生成式 AI 悖论以及测试它的实验设计。
图 1:语言和视觉中的生成式 AI 可以产生高质量的结果。然而,矛盾的是,模型在展示对这些模式的选择性(A,C)或询问性(B,D)理解方面有困难。
生成模型获得生成能力似乎比获得理解能力更有效,这与人类的智能形成鲜明对比,后者通常是获得生成能力更难。
要验证这一假设,需要对悖论的各个方面进行操作性定义。首先,对于给定的模型和任务 t,以人类智能为基线,生成能力比理解能力「更有效」意味着什么。将 g 和 u 作为生成和理解的一些性能指标,研究者将生成式人工智能悖论假设正式表述为:
简单地说,对于一项任务 t,如果人类的生成性能 g 与模型相同,那么人类的理解性能 u 就会明显高于模型(在合理的大 ϵ 条件下 > ϵ)。换一种说法,模型在理解方面的表现比研究者对具有类似强大生成能力的人类的预期要差。
生成的操作性定义很简单:给定一个任务输入(问题 / 提示),生成就是生成可观察到的内容以满足该输入。因此,可以自动或由人类对性能 g 进行评估(如风格、正确性、偏好)。虽然理解能力不是由一些可观察到的输出来定义的,但可以通过明确定义其效果来进行测试:
选择性评价。对于一个可以生成应答的给定任务,模型在多大程度上还能在同一任务的判别版本中从提供的候选集中选择出准确的答案?一个常见的例子是多选题回答,这是检验语言模型中人类理解和自然语言理解的最常见 *** 之一。(图 1,A、C 栏)提问式评价。对于给定生成的模型输出,模型能在多大程度上准确回答有关该输出的内容和适当性的问题?这类似于教育中的口试。(图 1,B、D 栏 )。这些关于理解的定义提供了一个评估「生成式 AI 悖论」的蓝图,让研究者能够检验假设 1 是否在不同模式、任务和模型中都成立。
首先,研究者在选择性评估中对生成性任务和判别性任务的变体进行了并列性能分析,以评估模型在语言和视觉模式下的生成和理解能力。他们将这种生成和判别性能与人类进行比较。
下图 2 比较了 GPT-3.5、GPT-4 和人类的生成和判别性能。可以看到,在 13 个数据集中的 10 个数据集中,至少有一个模型支持子假设 1,模型的生成能力优于人类,但判别能力低于人类。在 13 个数据集中,有 7 个数据集的两个模型都支持子假设 1。
要求人类像视觉模型那样生成详细图像是不现实的,普通人无法达到 Midjourney 等模型的风格质量,因此假设人类的生成性能较低。这里只将模型的生成和判别准确性与人类的判别准确性进行比较。与语言领域类似,图 3 展示了CLIP 和 OpenCLIP在判别性能方面也不及人类的准确性。假设人类的生成能力较差,这与子假设 1 一致:视觉 AI 在生成方面超过人类平均水平,但在理解方面落后于人类。
图 4(左)展示了 GPT-4 与人类的对比。通过观察,可以发现,当回答冗长且具有挑战性时,例如总结冗长的文档,模型往往会在判别任务中犯最多的错误。相比之下,人类则能在不同难度的任务中始终保持较高的准确率。
图 4(右)展示了 OpenCLIP 与人类在不同难度下的判别性能对比。总之,这些结果突出表明,即使面对具有挑战性或对抗性的样本,人类也有能力判别出正确答案,但这种能力在语言模型中并不那么强大。这种差异引发了人们对这些模型真正理解程度的疑问。
图 5 展示了一个值得注意的趋势:与人类生成的回复相比,评估员往往更青睐 GPT-4 的回复。
上一节展示了模型通常擅长生成准确的答案,而在判别任务中却落后于人类。现在,在提问式评估中,研究者通过直接向模型提出有关生成内容的问题,以研究模型能在多大程度上展示出对生成内容有意义的理解 —— 而这正是人类的强项。
图 6(左)展示了语言模态的结果。虽然模型在生成方面表现出色,但在回答有关其生成的问题时却经常出错,这表明模型在理解方面存在失误。假设人类无法以同样的速度或规模生成这样的文本,尽管问题是关于模型自身的输出,但与模型相比,人类在质量保证方面的准确率一直较高。正如子假设 2 中所述,研究者预计人类对自己生成的文本会取得更高的准确率。同时可以注意到,本研究中的人类并不是专家, *** 与模型输出一样复杂的文本可能是一个巨大的挑战。
因此研究者预计,如果将模型与人类专家进行比较,在理解自己生成内容方面的性能差距会进一步拉大,因为人类专家很可能以接近完美的准确度回答此类问题。
图 6(右)展示的是视觉模式下的提问结果。可以看到,图像理解模型在回答有关生成图像中元素的简单问题时,其准确性仍然无法与人类相比。同时,图像生成 SOTA 模型在生成图像的质量和速度上都超过了大多数普通人(预计普通人很难生成类似的逼真图像),这表明视觉 AI 在生成(较强)和理解(较弱)方面与人类存在相对差距。令人惊讶的是,与先进的多模态 LLM(即 Bard 和 BingChat)相比,简单模型与人类之间的性能差距较小,后者具有一些引人入胜的视觉理解能力,但仍难以回答有关生成图像的简单问题。
更多研究细节,可参考原论文。