台湾李宏毅：如何让LLMs更好评估文本质量？

深度学习自然语言处理原创
作者：Winnie

大型语言模型（LLMs）在自然语言处理领域的应用越来越广泛，但如何更好地使用它们来评估文本质量一直是个挑战。最近有一篇研究，深入探讨了如何最大程度地提高自然语言生成模型的评估性能，并提供了一些重要的指导原则。让我们一起来了解一下吧！

Paper:
A Closer Look into Automatic Evaluation Using Large Language Models

Link:
https://browse.arxiv.org/pdf/2310.05657.pdf
进NLP群—>加入NLP交流群

背景

大型语言模型（LLM）能够遵循自然语言指令来完成任务，最近的研究使其有潜力成为自动评估工具。其中，Chiang和Lee（2023）提出的LLM评估以及Liu等人（2023）提出的G-Eval均展示了这种能力，其中LLM可以产生与人类评估接近的评分结果。但两者的方法存在细微差异，对未来研究者如何使用LLM进行自动评估带来了困惑。本文旨在分析这两种方法中的关键组件，并提供如何更好地使用LLMs进行自动评估的指南。

主要发现：

本研究提供了一些关键的指南，以帮助研究人员更好地使用LLMs进行文本自动评估：

Auto-CoT不总是有效的： 使用自动CoT（由G-Eval提出）并不总是能够显著提高LLMs评分与人类评分之间的相关性。
始终要求LLMs解释评分： 要求LLMs解释其评分可以显著提高评估结果的相关性，使其更加接近人类评分。
选择适当的温度参数： 在生成LLMs输出时，选择适当的温度参数可以确保评估结果的稳健性，不受温度变化的影响。
灵活的提示方式： 不限制LLMs输出形式的提示方式可以提高评估结果的相关性，使其更加接近人类评分。

实验设置

在实验环节，研究人员选择了ChatGPT(gpt-3.5-turbo)在SummEval和Topical-Chat两个数据集上进行实验，探索LLM评估和G-Eval的关键组件如何影响LLM与人类评分的相关性。评估的标准是LLM评分与人类评分之间的相关系数。

LLM评估和G-Eval评估方法都要求LLM使用k点Likert量表对样本进行评分，但具体实施细节存在以下差异：

自动思维链： LLM评估和G-Eval中的任务描述和评分标准都是人工编写的。然而，Liu等人（2023）认为一些要评估的属性需要更多的不仅仅是简单的定义和评估标准，因此他们使用LLMs确定评估步骤。具体来说，他们将属性的任务描述、定义和标准连接起来，并附上一行“评估步骤：”来提示LLM。然后，LLM生成一个有序列表，其中包含逐步评估步骤。他们称这个过程为自动思维链（CoT）。G-Eval使用人工编写的任务说明和自动生成的评估步骤来提示LLM对样本进行评分。
输出提示：在LLMs的输入末尾，G-Eval使用提示“{{占位符}}（仅评分）：”来限制LLM仅输出数值评分；占位符将被评估属性替换。相反，LLM评估使用以下问题来要求LLM分配评分：“样本{{占位符}}有多{{占位符}}？（在1-k的范围内，其中1表示最低）”。LLM的输出形式没有限制。

实验结果与分析

LLM评估性能的衡量方式是LLM评分与人类评分之间的相关系数。

实验结果表明，在某些情况下，使用Auto CoT确实可以提高评估的一致性、连贯性和相关性，并具有统计学显著性。然而，在其他情况下，比如在Topical-Chat的案例中，使用Auto CoT并未显示出一致且有意义的改进。

研究团队还探讨了提示ChatGPT的方式如何影响其生成的评分与人类评分的一致性。实验发现，允许ChatGPT自由回答问题（不仅仅是生成一个数值分数）会产生更高的Pearson's r和Kendall's τ，尽管模型在大多数情况下还是会输出一个数值分数。有趣的是，模型在知道它需要解释其评分时倾向于生成更容易解释且与人类评分更一致的评分。：

结语

这篇研究探讨了如何通过使用ChatGPT更加有效地进行自动评估工具的运用，提供了一系列具体的指导原则。这些原则基于对Large Language Models (LLM) 评估和G-Eval的详细研究，并且指出，在评分时要求ChatGPT提供解释/分析是一个有效的方法。文中还进行了一系列实验来验证这些指导原则的稳健性，包括在生成过程中改变采样输出的温度和改变给ChatGPT的提示。实验结果表明，与G-Eval方法相比，rate-explain和analyze-rate在相关性方面总是表现更好。另外，在不同采样温度和使用不同提示下，rate-explain和analyze-rate方法相对稳定。最终，文章表明，使用ChatGPT的多个评估属性的相关性可以高于或与使用GPT-4的评分相媲美。尽管如此，这篇研究有其局限性，包括实验主要基于ChatGPT的应用、分析仅基于两个任务，并且无法与先前的一些研究结果进行完全公平的比较。

继续阅读

阅读原文