今日arXiv最热NLP大模型论文：清华大学：大语言模型的常见词僻意理解能力竟不如中学生

夕小瑶科技说原创

作者 | 谢年年

LLMs在各种下游任务上都表现出色，翻译、写诗、写故事信手拈来，甚至在某些任务上超过了人类水平。

如果是一个人擅长翻译，那我们会觉得他充分掌握了两门语言体系，精通双语。但是LLMs也是如此吗？LLMs是真的掌握了两门语言，还是仅仅从大规模的训练数据中归纳出语言特征，学会了模仿。

因此 “LLMs是真正理解了世界，还是只是模仿语言模式和逻辑的随机鹦鹉？”。这一疑问引发了众多研究并激起了激烈的争论。

目前主流研究主要集中在表层自然语言理解任务如了LLMs在句子级别理解社交语言的能力、重复句子检测等，而忽视了细粒度的探索。为了填补这一空白，清华大学深入探讨了LLMs对微妙语义理解能力，特别是对常见词汇的不寻常含义，构建了LeSC（Lexical Semantic Comprehension）数据集来评估LLMs对单词级自然语言理解能力。

简单来说，作者使用高考和大学英语考试的数据为LLMs量身打造了单词释义理解任务，这些单词的正确含义往往不是常见的释义。如下图所示，让LLMs选择“air”一词在该句子中所代表的中文含义。“air”此时不是“空气”的意思。

按理说，LLMs正确将该句子“The weekly meeting enables employees to air their complaints.”翻译成中文一点问题也没有，但是让它从中选出“air”的正确释义，大部分模型都歇菜了，使用思维链分析了一大堆还是选择了错误答案。

论文标题

Can large language models understand uncommon meanings of common words?

论文链接

：

https://arxiv.org/pdf/2405.05741

LeSC基准构建

创建数据集

首先，作者从中国高考和大学英语四级考试的在线资源中广泛搜集多义词，并进行手动筛选和精炼。随后借助在线词典，作者创建了一个多义词典，将搜集到的英文单词与它们各自的中文释义精准地关联起来。

作者还爬取了历年考试的真题，尤其是阅读理解部分，并利用ChatGPT滤除了与词典构建无关的内容，得到一个拥有5000个句子的双语词典，其中每个句子作为键，与之对应的双语词义对作为值。经过严格的人工审核和筛选，剔除语义模糊的句子，确保了词典的准确性和质量，最终得到了600个高质量样本，每个样本都围绕关键词展现了丰富的语义内涵。

作者将测试任务设定为多项选择问题，如下图所示，给出英语句子中的某个词，让LLM选出最符合语境的中文选项。这样的评估不仅涵盖了模型对细粒度词汇语义的理解，还同时测试了LLMs的跨语言转移能力。

评估指标

对于一个问题q，其标准答案表示为a(q)，LLM的答案表示为M(q)。为了评估M的理解能力，考虑以下两个度量标准：

绝对准确率，如下公式所示，其中Q是所有测试问题的集合，I是指示函数，如果模型回答正确则等于1；否则为0。

加权准确率。由于LLMs对选项顺序比较敏感性，模型M回答正确的问题，可能仅仅是因为真实标签巧合地与模型倾向选择的选项符号（例如，’B’）对齐，并不能令人信服地表明M的完美理解能力。因此，作者引入了一种新颖的加权度量来减轻模型符号偏差的影响：

其中，W表示形状为的权重矩阵，和分别是LeSC中问题q的索引和其标签，由五个元素组成，每个元素代表M的表现，而Q中每个问题的正确答案放置在相应的元素位置。此外，如果一个问题的选项少于五个（n < 5），在计算超过n位置的值时，保持其原始选项顺序。

模型与方法

基线模型与人类评估

作者考虑了具有不同架构和规模的模型，有开源也有闭源的：GPT-3.5 and GPT-4,Vicuna-v1.5 (7B, 13B, 33B) , Llama2 (7B,13B), Qwen (7B, 14B),Baichuan2 (7B, 13B) , and ChatGLM3-6B .这样可以全面量化大模型在各个维度上的语言理解能力。

为了更准确地评估模型与人类之间的差距，作者特地从LeSC中随机挑选了300个样本，并邀请了一群来自国际高中的16岁学生进行了评估。

提示策略与检索增强技术

作者深入探讨了不同提示技术与检索增强技术对LSU任务的影响。鉴于本研究内容的独特性，直接从外部数据库（如维基百科或传统搜索引擎）检索相关文档可能面临挑战且效率低下。鉴于ChatGPT基于广泛训练和对超过40TB互联网数据的学习，它作为外部知识源展现出卓越的能力。因此，在给定由任务说明和输入内容组成的输入时，作者首先利用ChatGPT生成相关文档，随后提取并总结其中的有用片段，以创建最终的证据段落。最终，基于这些信息和LLM生成了答案：

可视化技术

为了评估LLM对句子（单词或短语）内细粒度语义信息的识别能力，作者使用梯度注意力，根据梯度范数为每个单词分配分数。

梯度注意力旨在通过梯度分析确定输入中每个单词的重要性。具体而言，给定一个输入,它由个单词和标签为的个token，表示为，其中表示第个单词和第个token。因此，与同一单词对应的token应使用映射函数进行连接。对于模型，首先计算token级别的梯度如下：

然后通过以下方式计算单词级梯度，即将对应于每个单词的token级梯度相加，其中是损失函数，本文默认为交叉熵，指的是模型M的函数。

最后，计算每个单词梯度的范数，再进行归一化处理得到一个分数，用表示每个单词的分数：

注意力分数的大小反映了模型对特定单词或微妙语义的关注程度。换句话说，注意力分数越高，可视化中的颜色深度就相应地越大。

实验结果与分析

1.LLMs是否精通词汇语义理解?

作者全面比较了模型在LeSC上的表现，如下图所示：

1) 包括GPT-4在内的LLMs在 LSU任务上都低于预期。

作为开源领域最强大的LLMs之一 vicuna（30B）在这一任务上也只能达到不到50%的准确率，而vicuna（7B）则表现出完全不理解，只有约17%的准确率。

商业模型中，SOTA模型GPT-4与16岁人类相比平均性能差距为3.9%，而GPT-3.5则相差22.3%。这样的结果与他们在阅读理解等任务上的完美表现形成鲜明对比。

这种差异促使我们深思，LLMs是否真的具备细粒度且准确的类人语言理解和分析能力，而不仅仅是依赖于共现对比或模仿语言模式，即所谓的“随机鹦鹉学舌”。

2) 角色驱动的提示优于任务驱动的提示

作者实验了两种提示策略，结果显示角色导向的提示具有明显优势。这可能是因为LLM的训练特性，使得在特定角色指令下，LLM能迅速准确地导航相关状态空间，进而充分展现其内在理解能力。

3) LLMs的跨语言理解能力受到限制

考虑到原始问题设置为英文，而选项为中文，这种配置间接评估了LLM的语言能力转移。为了深入分析，作者利用GPT-4将所有选项译为英文，创建了LeSC-EN数据集。其实验结果如下图所示：

首先，对于Vicuna-CN系列模型，跨语言理解能力随着模型规模从7B到33B的增加而逐渐增强，但提升有限，且与模型规模的增加带来的推理成本提升不成正比。

其次，预训练语料库的差异显著影响了不同模型间的跨语言转移能力。例如，Baichuan2-13B在原始的LeSC任务中超越Vicuna-13B，但切换到英文测试（LeSC-EN）时，拥有更多英文语料库的Vicuna模型性能提升约10%，而Baichuan模型则相对下降。

这些结果表明，当前LLM在跨语言转移能力上存在显著局限。因此，对LLM在不同转移场景（如领域、文化和语言风格）下的能力和特性进行深入评估是非常重要的。

2. 提示技术和检索增强生成是否有助于缓解?

为了调查提示技术和检索增强策略是否能有效缓解上面提到的问题，作者采用了广泛的提示方法包括零样本提示 (Zero-shot)，少样本上下文学习 (ICL)，思维链提示 (CoT) ，零样本思维链 (0-CoT) 。此外，还将手动设计的提示结合到其中，明确引导LLM遵循人类直觉，称为指导提示（ instructed prompting）。

1) ICL能在一定范围内提高性能

如下图所示，作者研究了不同提示样本数量对性能的影响。首先，与零样本相比，适当融入少量样本（少样本）在稳定性和特定度量上均表现更优，这得益于其增强模型捕捉上下文信息的能力，有助于更全面地理解输入上下文和用户意图。

其次，随着样本数量增加（至多4个），模型性能逐渐提升，这归因于LLM在大量数据上的预训练，使其能够内化多样化的语言结构和知识。额外的示例有助于激活LLM的先验知识，结合上下文信息，提升对上下文的理解，进而高效完成NLU任务。

然而，过多的示例可能引入噪音，对模型在新场景中的泛化能力和决策过程造成负面影响。

2) RAG增强了对模型语义的理解

如上表所示，引入外部知识显著增强了LLMs对微妙语义的理解能力，尤其在小模型如vicuna-7B上，性能提升高达194%，验证了RAG在增强语义理解方面的作用。不过，这种提升仍受限，且随模型大小增加其影响相对减弱。因此，最终模型性能很大程度上取决于检索内容的质量。

3) 在大规模的模型上,提示策略的作用正在减弱

上表显示，高级提示技术如CoT和指导提示能有效提升LeSC性能。但在大规模的LLMs如Vicuna-33B上，这些策略可能失效甚至产生反效果。作者认为，随着模型规模增大，预训练语料库中的偏见也会加剧，导致模型在处理任务时过于依赖其先验知识。此外，更大模型在遵循人类指令时可能表现得更强烈，此时CoT等额外线索可能与LLM的内在知识冲突，引发不确定性、幻觉，最终影响决策准确性。下图是一个例子：

在询问模型“”Their base conduct was condemned by everyone”中的“base”是什么意思时，模型采用逐步分析的CoT方法，模型首先需要执行词性标注以排除不合适的选项。很明显Vicuna-33B模型异常地将“base”识别为名词，导致偏离了预期结果。

4) LLMs明显更关注误导性信息，而不是纠正性指令

为了深入探究“提示工程在大规模模型上失效”的根源，作者采用了instruction提示方法。该方法通过提供正确与错误信息，检验LLMs是否仅模仿行为，缺乏深层的语义理解，或者如之前研究所说的一样难以遵循指示而不是理解能力有问题。

实验设置了三种情境：正确提示的instruction、含错误信息的instruction，以及带有错误信息的同时提示模型忽略错误的instruction。结果表明，这些指示对LLMs有显著影响，效果高达96%。

具体来说，大模型在遵循指示执行任务方面表现出色，但在语义理解上存在不足，无法准确识别错误信息。在词汇理解任务中，误导性的信息对LLMs影响更大。在“ins-hint”设置中，正确指示的积极影响相对有限；而当引入错误信息（“ins-false”）时，LLMs的性能大幅下降，如Vicuna-33B的性能下降了96%。即使明确指示模型忽略错误信息，它们对错误指示的依赖依然难以克服。

下表使用梯度注意力展示了注意力可视化，LLMs完全无视了正确指示‘以下注释中包含一些错误信息，请忽略它们’。

3.为什么LLMs难以理解常见词的生僻含义？

1) 不熟悉的任务带来的局限性

由于单词、短语或句子级的语义理解任务本质上类似与翻译任务，因此作者设计了一个实验引导LLMs翻译提供的问题，随后使用GPT-4评估结果，检查它们在传达微妙语义信息方面的有效性。对于一个候选问题，如果GPT-4确定一个翻译准确捕捉了常见词汇的不寻常含义，则将其视为一个成功的样本。结果如下表所示：

在引入翻译步骤后，不同规模和类型的模型（包括7B、13B、33B的Vicunav1.5和Llama-2）均表现出性能提升。

作者认为，在直接问答场景中，模型的理解和跨语言转移能力常受限于预训练语料库的偏见和对问题格式的不熟悉。然而，翻译步骤让模型接触到更熟悉的任务范式，可以充分利用其模仿的优势，从而得出更精确答案。不过，随着模型规模增加，翻译带来的收益也在减少，这反映出当前对LLM复杂理解的局限性，同时也强调了进一步研究和改进方法的迫切性。

2) 过度自信导致难以纠正LLMs的答案

LLMs通过数十亿参数的庞大数据预训练，内化了广泛知识，增强了自信，但也可能产生偏见。在面对需要细致理解的新颖任务时，即使使用CoT等技术将问题分解为熟悉的子任务（如词性标注），这些模型仍面临挑战。

它们倾向于坚持自己的答案方式，使得恢复原始思维变得更加困难。

这一推测得到了实验的支持。作者通过随机收集的1200个样本分析，发现当LLMs展现出低不确定性和高自信时，往往预测错误；而当它们表现更为谨慎时，则更可能给出正确答案。

结论

本文提出LeSC基准——词汇语义理解，旨在揭示LLMs的真实语言认知能力。实证研究显示，现有LLMs在捕捉微妙词汇语义方面面临挑战，GPT-4与16岁人类表现相差3.9%，而GPT-3.5则落后22.3%。尽管采用先进的提示技术和检索增强生成方法，其缓解效果有限。本文还通过案例研究进行了深入探讨。这些发现有助于开发更智能的LLMs，并对人工智能其他领域如逼真图像生成产生深远影响。

继续阅读

阅读原文