GPT-4评估方法的突破性进展可靠性与人类评估一致性超过80

最近的讨论集中在LLM(语言模型评估)上,特别强调了使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。然而,这种方法存在明显的局限性。因此,LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。

 

开发人员推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们的工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这个广泛的数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。

更多AI资讯,请关注公众号“巨星云”“未来AI工具”。

随着骆马、考拉和多莉等各种语言模型的出现,使用GPT-4进行比较的方法越来越受欢迎。提供了一个独特的提示,其中包含来自模型A和模型B的两个答案,并要求评估者按1到8的等级对其进行评分,1表示模型A明显更好,8表示平局,4-5表示平局,2-3和6-7表示更好的模型。

交换模型A和模型B不会显著影响分数(例如,7变成2,8变成1),并且一个模型的持续优势将导致其胜利,这似乎是合乎逻辑的。然而,出现了位置偏差现象,其中模型更频繁地将较高的分数分配给模型A(一)。为了确保公平性,人工评估解释了这种偏见。

HuggingFace团队进行的一项有见地的研究评估了四个模型在329个不同问题上的答案。在这项有趣的研究中,发现以下情况:

基于成对比较的四个模型的排名在人工评估和GPT-4之间是一致的,尽管观察到不同的Elo评级差距。这表明该模型可以区分好的和坏的答案,但在一些边缘案例中与人工评估不太一致。有趣的是,该模型对其他模型的答案进行评分,特别是那些在GPT-4答案上训练的模型,高于真实人类答案。GPT-0的得分与回答中唯一令牌的数量之间存在高度相关性(Pearson=96.4)。这表明该模型没有很好地评估答案的质量,强调了需要谨慎解释的重要性。这些发现强调了在使用GPT-4进行模型比较时进行仔细评估的重要性。尽管该模型在一定程度上可以区分答案的好坏,但其评估可能并不总是与人工评估完全一致,特别是在细微的情景中。因此,在仅依赖GPT-4分数时,谨慎行事并考虑其他因素至关重要。通过改进提示和结合各种评估方法,研究人员的目标是提高GPT-4评估的可靠性和准确性。