菜单
本页目录

“大海捞针”问题

大海捞针(Needle in a Haystack, NIAH)问题最早由 Greg Kamradt 提出,是一种给 LLM 压测的方式。虽然 LLM 一般都能处理很长的 context,但是在极端情况内,模型并不是一定能准确召回内容。该测试步骤如下:

  • 将一个事实或语句(needle,针)放到很长的一段文本(haystack,干草垛)里。
  • 让模型召回该语句
  • 重复测试模型的长度和针放置的位置

从结果来看,GPT 4 Turbo 显然不是很擅长大海捞针,一定程度上可以说这个 context window 有点“假”。这篇文章对比的是中文大模型,在多语言方面,Claude 3 家族应该是目前最强,见 Introducing the next generation of Claude \ Anthropic,基本上达到 100 %。