视焦点讯！最新研究，GPT-4暴露了缺点！无法完全理解语言歧义！

发布时间：2023-05-06 14:12:17 来源：夕小瑶科技说

自然语言推理（Natural Language Inference，NLI）是自然语言处理中一项重要任务，其目标是根据给定的前提和假设，来判断假设是否可以从前提中推断出来。然而，由于歧义是自然语言内在的特征，处理歧义也是人类语言理解的重要组成部分。由于人类语言表达的多样性，歧义处理成为解决自然语言推理问题的难点之一。当前，各种自然语言处理算法被应用到问答系统、语音识别、智能翻译和自然语言生成等场景中，但即使有这些技术，完全解决歧义仍然是一个极具挑战性的任务。

(资料图)

对于 NLI 任务，大型自然语言处理模型如 GPT-4 等确实面临着挑战。其中一个问题是语言歧义导致模型难以准确理解句子的真正含义。此外，由于自然语言的灵活性和多样性，不同文本之间可能存在各种各样的关系，这使得 NLI 任务中的数据集变得极其复杂，同时也对自然语言处理模型的普适性和泛化能力提出了巨大挑战。因此，在处理歧义语言方面，如果今后大模型成功将显得至关重要，并且大模型已被广泛应用于对话界面和写作辅助工具等领域。处理歧义将有助于适应不同的背景，提高沟通的清晰性，以及识别误导性或欺骗性言语的能力。

这篇讨论大模型歧义的论文标题使用了一语双关的表达，“We’re Afraid…”，既表达了当前对语言模型难以准确建模歧义的担忧，又暗示了论文所描述的语言结构。本文也表明，人们正在努力制定新的基准，以真正挑战强大的新的大模型，以便更准确地理解和生成自然语言，并实现模型上的新突破。

论文题目:We"re Afraid Language Models Aren"t Modeling Ambiguity

论文链接:https://arxiv.org/abs/2304.14399

代码和数据地址:https://github.com/alisawuffles/ambient

本文作者计划研究预训练大模型是否有能力识别和区分含有多个可能解释的句子，评估模型如何区分不同的读法和解释。然而，现有的基准测试数据通常不包含歧义的例子，因此需要自己构建实验来探究这个问题。

传统的 NLI 三路标注方案指的是一种用于自然语言推理（NLI）任务的标注方式，它需要标注者在三个标签中选择一个标签来表示原始文本和假设之间的关系。这三个标签通常是“蕴含（entailment）”、“中立（neutral）”和“矛盾（contradiction）”。

作者使用了 NLI 任务的格式来进行实验，采用了函数式方法，通过对前提或假设中的歧义对蕴含关系的影响来表征歧义。作者提出了一个名为 AMBIENT（Ambiguity in Entailment）的基准测试，涵盖了各种词汇、句法和语用歧义，并更广泛地涵盖了可能传达多个不同信息的句子。

如图 1 所示，歧义可能是无意识的误解（图 1 顶部），也可能是故意用来误导听众的（图 1 底部）。例如，如果猫离开家后迷失方向，那么从无法找到回家的路线的意义上看，它是迷路了（蕴涵边）；如果它已经好几天没有回家，那么从其他人无法找到它的意义上看，它也是迷路了（中立边）。

▲图1 用猫迷路解释的歧义示例

AMBIENT 数据集介绍精选示例

作者提供了 1645 个涵盖多种类型歧义的句子样例，其中包括手写样本和来自现有NLI数据集和语言学教材。AMBIENT 中的每个示例都包含一组标签，对应于各种可能的理解，以及每种理解的消歧重写，如表 1 所示。

▲表1 精选示例中的前提和假设对

生成的示例

研究人员还采用了过度生成和过滤的方法来构建一个大型的未带标签的 NLI 示例语料库，以更全面地涵盖不同的歧义情况。他们受到前人工作的启发，自动识别共享推理模式的前提假设对组，并通过鼓励创建具有相同模式的新示例来加强语料库的质量。

注释和验证

针对先前步骤获得的例子，需要进行注释和标注。这一过程涉及到了两位专家的注释、一位专家的验证和汇总，以及部分作者的验证。同时，37 名语言学专业的学生为每个例子选择了一组标签，并提供了消歧重写。所有这些被注释后的例子经过筛选和验证，最终得到了 1503 个最终的例子。

具体过程如图 2 所示：首先，使用 InstructGPT 创建未带标签的示例，再由两位语言学家独立进行注释。最后，通过一位作者的整合，得到最终的注释和标注。

▲图2 AMBIENT 中生成示例的注释流程

此外，这里还探讨了不同标注者之间标注结果的一致性问题，以及 AMBIENT 数据集中存在的歧义类型。作者在该数据集中随机选择了 100 个样本作为开发集，其余样本用作测试集，图 3 是其中集合标签的分布情况，每个样本都具有对应的推理关系标签。研究表明，在歧义情况下，多个标注者的标注结果具有一致性，使用多个标注者的联合结果可以提高标注准确性。

▲图3 AMBIENT 中集合标签的分布

歧义是否说明了“不同意”？

该研究分析了在传统的 NLI 三路标注方案下，标注者在对含歧义输入进行标注时的行为。研究发现，标注者可以意识到歧义，并且歧义是导致标签差异的主要原因，因此挑战了“不同意”是模拟例子不确定性的流行假设。

在研究中，采用 AMBIENT 数据集，雇佣了 9 名众包工作者对每个含歧义的例子进行标注。

任务分为三步：

标注含歧义的例子识别可能的不同解释标注已消除歧义的例子

其中，步骤 2 中，三个可能的解释包括两个可能的意思和一个类似但不完全相同的句子。最后，对每个可能的解释，都将其代入原始例子得到三个新的 NLI 例子，让标注者分别选择一个标签。

此实验的结果支持了假设：在单标注体系下，原始的模糊例子会产生高度不一致的结果，即在给句子打标签的过程中，人们对于模糊不清的句子容易产生不同的判断，导致结果不一致。但是，当在任务中加入消除歧义的步骤后，注释员们普遍能够识别并验证句子的多种可能性，结果的不一致性得到了大幅度解决。因此，消除歧义是减少注释员主观性对结果影响的有效方法。

评估大模型上的表现Q1. 能否直接生成与消歧有关的内容

该部分重点在于测试语言模型在上下文中直接生成消歧和对应标签的学习能力。为此，作者构建了一个自然提示并使用自动评估和人工评估来验证模型的表现，如表 2 所示。

▲表2 当前提不明确时，用于生成歧义消除任务的 few-shot 模板

在测试中，每个示例都有 4 个其他测试示例作为上下文，并使用 EDIT-F1 指标和人工评估来计算得分和正确性。实验结果如表 3 显示，GPT-4 在测试中表现最佳，实现了18.0%的 EDIT-F1 得分和 32.0% 的人工评估正确性。此外，还观察到大模型在消歧时常常采用加入额外上下文的策略来直接确认或否定假设。不过需要注意的是，人工评估可能会高估模型准确报告歧义来源的能力。

▲表3 大模型在 AMBIENT 上的性能

Q2. 能否识别出合理解释的有效性

该部分主要研究了大模型在识别含有歧义的句子时的表现。通过创建一系列真假陈述模板，并对模型进行 zero-shot 测试，研究人员评估了大模型在选择正误之间的预测中的表现。实验结果表明，最佳模型是 GPT-4，然而，在考虑歧义性的情况下，GPT-4 在回答所有四个模板的歧义解释中的表现比随机猜测的准确率还低。此外，大模型在问题上存在一致性问题，对于同一个歧义句子的不同解释对，模型可能会出现内部矛盾的情况。

这些发现提示我们，需要进一步研究如何提高大模型对含有歧义的句子的理解能力，并更好地评估大模型的性能。

Q3. 通过不同解释模拟开放式连续生成

这一部分主要研究基于语言模型的歧义理解能力。通过给定上下文，对语言模型进行测试，比较模型对于不同可能解释下的文本延续的预测。为了衡量模型对于歧义的处理能力，研究人员通过在相应语境下比较模型在给定歧义和给定正确语境下所产生的概率和期望差异，用 KL 散度来衡量模型的“惊奇度”，并且引入随机替换名词的“干扰句”来进一步测试模型的能力。

实验结果表明，FLAN-T5 的正确率最高，但不同测试套件（LS 涉及同义词替换，PC 涉及拼写错误的修正，SSD 涉及语法结构修正）和不同模型的表现结果不一致，说明歧义仍然是模型的一个严重挑战。

多标签 NLI 模型实验

如表 4 所示，在已有带有标签变化的数据上微调 NLI 模型仍有较大提升空间，特别是多标签 NLI 任务中。

▲表4 多标签 NLI 模型在 AMBIENT 上的性能

检测误导性的政治言论

这项实验研究了对政治言论的不同理解方式，证明了对不同理解方式敏感的模型可被有效利用。研究结果如表 5 所示，针对有歧义的句子，一些解释性的释义可以自然而然地消除歧义，因为这些释义只能保留歧义或者明确表达一个特定的意义。

▲表5 本文检测方法标记为有歧义的政治言论

此外，针对这种预测的释义，可以揭示歧义的根源。通过进一步分析误报的结果，作者还发现了很多事实核查中没有提到的歧义，说明这些工具在预防误解方面具有很大的潜力。

小结

如同本文中所指出的那样，自然语言的歧义性将是模型优化中的一个关键挑战。我们期待未来的技术发展中，自然语言理解模型能够更加准确地识别文本中的上下文和重点，并在处理歧义性文本时表现出更高的敏感度。尽管我们已经建立了评估自然语言处理模型识别歧义的基准，并能够更好地了解模型在这个领域中的局限性，但这仍然是一个非常具有挑战性的任务。

夕小瑶科技说原创

作者 |智商掉了一地、Python

标签：

视焦点讯！最新研究，GPT-4暴露了缺点！无法完全理解语言歧义！
自然语言推理（NaturalLanguageInference，NLI）是自然语言处理中一项重要任务，其目标是根据给定的前提和

2023-05-06
重庆南方翻译学院怎么样？_全球观热点
1、重庆南方翻译学院是一所很好的二本类高校，现已更名为重庆外语外事学院。2、学校大专和本科都共享教学资

2023-05-06
青春中国丨共话青春梦想_每日动态
祖国召唤时，我们正青春。CCTV-7国防军事频道推出特别节目《青春与青春对话》，来自海军航母部队的朱悦萌、

2023-05-06
165家公司连续三年净资产收益率超20% 分布在四大高景气行业世界消息
随着上市公司2022年年报披露收官，A股上市公司2022年的各项财务指标也浮出水面。净资产收益率（ROE）作为衡

2023-05-06
环球消息！铜的密度是多少_铜的密度简述
欢迎观看本篇文章，小柴来为大家解答以上问题。铜的密度是多少，铜的密度简述很多人还不知道，现在让我们一

2023-05-06
培育“第一响应人” 安全守护在身边
党的二十大报告提出，提高防灾减灾救灾和重大突发公共事件处置保障能力，加强国家区域应急力量建设。我国是

2023-05-06
原来多数俄军并未参战？美国将领终于清醒，泽连斯基遭当头棒喝
原来多数俄军并未参战？美国将领终于清醒，泽连斯基遭当头棒喝,俄军,美军,乌军,美国,俄罗斯,太平洋舰队,弗

2023-05-06
美国银行业危机持续发酵又一家美国银行要被关闭？_今日热议
近来美国银行业危机持续蔓延。在摩根大通本月1日宣布接手被关闭的美国第一共和银行之后，美国区域性银行的

2023-05-06
每日时讯!柔软剂和缩绒剂先使用哪一个(柔软剂和缩绒剂的使用顺序)
柔软剂和缩绒剂先使用缩绒剂，在洗衣机中加入35到40度的温水，然后加入缩绒剂，搅拌均匀，然后把织物放入洗

2023-05-06
最新消息：机构强烈推荐4只个股-更新中
【09:59招商轮船(601872)：Q1业绩符合预期看好干散及油运周期上行】5月6日给予招商轮船(601872)强烈推荐评

2023-05-06
每日快讯!开心就keep不开心就delete是什么梗
最近一段时间开心就keep不开心就delete这个梗非常火爆，不少小伙伴在问开心就keep不开心就delete是什么梗？

2023-05-06
看球不如打球，江苏“县BA”开赛_每日关注
“CBA我们（江苏）成绩不太行，但不代表我们不爱篮球啊。知道今年咱们自己的比赛恢复了，我们早就迫不及待

2023-05-06
片仔癀时隔三年再涨价：片仔癀锭剂零售价760元/粒，涨幅近三成
据片仔癀去年年报显示，片仔癀系列产品涉及的药材主要包括麝香、牛黄、蛇胆、三七，除麝香、蛇胆需获得国家

2023-05-06
阳光照明：5月5日融资买入188.33万元，融资融券余额1.37亿元全球百事通
5月5日，阳光照明（600261）融资买入188 33万元，融资偿还166 44万元，融资净买入21 89万元，融资余额1 37亿元。

2023-05-06
行拘！男子为泄私愤高空抛物连砸8辆车|天天简讯
法治日报日前，湖北省武汉市公安局江岸区分局台北街派出所接群众报警，称其轿车天窗被砸出一个大洞，车辆损

2023-05-06
环球聚焦：商务星服装软件_商务星软件
1、创星互联网有限公司是一家整合线上线下资源，专注于天猫，代运营以及全网品牌推广的第三方服务商，团队

2023-05-06
【焦点热闻】快手蛋黄酥
1、快手蛋黄酥。2、以蛋挞皮、紫薯为主料的食品。本文到此分享完毕，希望对大家有所帮助。

2023-05-06
安集科技（688019）：5月5日北向资金增持7100股环球观焦点
5月5日北向资金增持7100 0股安集科技。近5个交易日中，获北向资金增持的有3天，累计净增持14 27万股。近20

2023-05-06
云南美术基础教育教学作品展开展|当前快播
掌上春城讯即日起至5月15日，第二届云南美术基础教育教学作品展，在云南省文化馆艺馨楼一楼展出。展厅里，

2023-05-06
漠河市局开展“五·六”火灾反思巡游活动|每日动态
5月5日，漠河市局开展以“和谐北极、平安五月、反思教训”为主题的“五·六”火灾反思巡游活动。在河东初心

2023-05-05
天天观速讯丨平面直角坐标系压轴题总结_平面直角坐标系压轴题
1、解:(1)PA=根号下k^2+(-4)^2=根号下k^2+16PB=8+k由题中PA=PB得根号下k^2+1

2023-05-05
董明珠股份冻结？格力电器：录入错误，状态更正为“质押”_全球讯息
格力将董明珠股份状态更正为质押

2023-05-05
市值约4亿，董明珠1150万股被冻结？刚刚，格力回应→-环球速讯
市值约4亿，董明珠1150万股被冻结？刚刚，格力回应→,持股,股票,董明珠,小说家,格力电器

2023-05-05
泥垢的意思_泥垢的解释-环球最新
欢迎观看本篇文章，小柴来为大家解答以上问题。泥垢的意思，泥垢的解释很多人还不知道，现在让我们一起来看

2023-05-05
战网国际服新手玩家下载攻略来了一文学会账号注册
之前网易就已经在官方网站上发出声明，不再与暴雪公司进行任何形式的合作，并且暴雪旗下的所有网络游戏都会

2023-05-05
招商蛇口：余志良因工作调动辞去董事会秘书职务，黄均隆接任精选
5月5日，招商蛇口(SZ001979)发布关于聘任公司董事会秘书的公告。公告显示，招商蛇口董事会近日收到董事会秘

2023-05-05
赠与合同的订立是哪些
一、赠与合同的订立是哪些赠与合同的订立方式如下：1 口头形式，指赠与人与受赠人以直接对话的方式订立合同

2023-05-05
租号玩能买号吗-世界信息
有小伙伴想知道租号玩能买号，租号玩软件是一款正规的租号平台。想要永久购买可以在手游平台进行交易，详情

2023-05-05
大额存单转让由“让利”到“加价”，长期存款利率持续走低-热门
“他们就是二道贩子。”4月27日，一名北京的投资者对《华夏时报》记者说道，“我定了闹铃准时抢大额存单都

2023-05-05
去红河做生活家｜红河小众秘境，专为热爱摄影的你定制！-速讯
编者按：4月17日，在“有一种叫云南的生活去红河做生活家”红河州文旅形象宣传片上线新闻发布会暨2023红河

2023-05-05