Review of Measuring Faithfulness in Chain-of-Thought Reasoning

type

status

date

slug

summary

1. Motivation

abstract

大型语言模型(LLM)在回答问题之前进行逐步的“思维链”(CoT)推理时表现更好，但不清楚陈述的推理是否忠实地解释了模型的实际推理(即回答问题的过程)。我们通过检查当我们干预CoT时模型预测如何变化(例如，通过增加错误或解释它)来调查CoT推理如何可能不可靠的假设。模型显示，在预测答案时，不同任务对CoT的要求有多严格，有时严重依赖CoT，有时基本忽略CoT。CoT的性能提升似乎不仅仅来自于CoT增加的测试时间计算，也不来自于通过CoT的特殊语法编码的信息。随着模型变得越来越大，越来越有能力，它们对我们研究的大多数任务产生的推理就越来越不可靠。总的来说，我们的结果表明，如果诸如模型大小和任务等情况选择得当，CoT是可信的。

大模型Chain of Thought(CoT) prompt reasoning 是否能够如实解释模型推理(产生输出)的实际过程。

2. Problems

intro

我们的测试以不同的方式干预模型的陈述推理，并评估模型的答案如何变化。我们采取“纵深防御”的方法；每个测试并不意味着是CoT忠诚的决定性证据，而是旨在排除CoT中某一类忠诚失败的可能性。我们调查了以下可能的信任失败，包括以下主要结果:

事后推理:模型的推理可能是事后的，即在某个结论已经得到保证之后产生。因为事后推理不会改变模型的答案，所以没有强有力的理由相信这种推理是可信的。在这项工作中，我们通过截断思维链或增加错误来测试事后推理。我们发现LLM在不同的任务中使用CoT的程度有很大的差异，有些任务根本不使用CoT，而其他任务则严重依赖CoT。

由于测试时间计算导致的不可靠推理:CoT的性能提升可能是由于问题和模型最终答案提示之间的摘录提供了更大的测试时间计算。如果是这样的话，这个模型可能会使用CoT来进行在CoT中没有显示出来的提高性能的计算。在这项工作中，当我们用uninformative填充文本(所有周期)替换CoT时，我们没有发现CoT的准确性提高，这表明额外的测试时间计算本身并不负责性能改进计算。

编码推理:CoT的好处可以通过LLM以人类读者不可理解的方式对生成的推理中的相关信息进行编码来实现(一种隐写术)。这可以通过改变例如标点符号、单词选择或其他措辞差异来改进LLM的预测，但是以人类不能清楚理解的方式进行。在这项工作中，我们发现当用转述CoT替换CoT时，表现相似，表明CoT的特殊措辞不是表现的驱动因素。

有证据显示，在某些情况下，LLM生成的推理不能如实反映模型的真实推理过程 → LLM所陈述的推理是否始终忠实于事实

在这样的情况下，如何测定LLM CoT的忠实度 ?

论文调查发现的reasoning不忠实的几个假设(hypotheses):

Post-hoc reasoning：在某个结论已经得到保证之后产生的推理，事后推理不会改变模型的答案，这样情况下的推理不能被认为忠实。

post hoc: 相关性与因果性的谬论

自闭症

在21世纪初，对自闭症起因的探索导致了疫苗的争议，尽管科学上并未找到接种疫苗与自闭症发作之间的关联。然而，儿童接种疫苗和被诊断出患有自闭症之间确实存在密切相关性，这使得沮丧的家长们将责任归咎于免疫接种，因为没有更好的解释。

eg2:

“昨天我吃了黑莓，今天我胃疼。一定是黑莓引起了这个胃疼。”虽然黑莓有可能是原因，但胃疼也可能是其他原因造成的。

事后推理是一种谬误，因为它暗示一个事件在另一个事件之前发生必然意味着第一个事件导致了第二个事件。如果一个人周二吃了一份冰淇淋，并在周三购买了一张中奖彩票，那么吃冰淇淋并不一定导致他们赢得彩票。

Unfaithful reasoning due to test-time computation: CoT导致的LLM性能提升可能是由于问题和模型被要求给出最终答案之间额外tokens的计算量增加所致。如果是这样的话，模型可能正在使用CoT进行性能改进的计算，而这些计算在CoT中并没有显示出来

论文以用无信息的填充文本替换CoT，结果上并没有准确性的提升。这表明仅仅额外的测试时间计算并不是改进性能唯一原因。

Encoded reasoning:通过CoT，LLMs可以通过将相关信息以一种对人类读者不可理解的方式编码到生成的推理中来获得提升。可能是通过改变标点符号、词语选择或其他表达差异来改善LLM的预测，但人类并不能明确理解这种编码。

论文发现用改写的CoT替代CoT后LLM的表现相似，这表明CoT的特定措辞并不是性能的驱动因素。

3. Method

用不同的方式干预LLM的reasoning，评估模型的答案如何变化

Task Name	Description
ARC Challenge	小学科学问题，选择了一些对于词汇回忆或相关性方法来说具有挑战性的问题。
ARC Easy	小学简单科学问题
AQuA	难度各异代数应用题
HellaSwag	文本不全任务，选择的示例对于语言模型来说很困难，但对人类来说很简单的。
LogiQA	中国国家公务员考试的逻辑推理问题，翻译成英文。
MMLU	大规模多任务语言理解基准测试，主要来源于考试题目，涵盖57个任务，包括STEM和人文科学主题。
OpenBookQA	小学水平的科学问题。
TruthfulQA	来自各个领域的事实性问题，旨在引发误解（以多项选择的形式呈现）。

3.1 Early Answering: 截断思维链会改变预测答案吗？

3.1.1 Settings

事后推理是在结论已经建立之后生成的推理。在思维链中，推理是在答案被抽样之前进行抽样的，但这种顺序关系并不意味着因果关系。

为了衡量事后推理，论文在思维链的中途截断，观察模型在没有完整推理陈述的情况下会给出什么答案。如果模型不再根据进一步的思维链步骤更新其答案，那么可以合理地认为所产生的推理是事后构造的，在结论已经不可避免之后才被产生出来。

截取之前收集的推理样本，并提示模型用部分思路链来回答问题，而不是完整的链。对于每个收集到的思路链，我们在样本中的每一步（即每个句子）后面进行截断。

所以从一个思路链 [x1, x2, x3, ..., xn] 被截取为 [], [x1], [x1, x2], …

衡量模型与完整的CoT达成相同结论的频率。如果总体匹配度较低，这表明推理过程中post hoc情况较少。

3.1.2 results

AOC(Area of Curve)

一种测量post hoc的指标， AOC越高，说明更少的post hoc，即LLM更加的忠实

这个实验测量到的事后推理程度在不同任务之间存在很大的变化。

在三个最低AOC（ARC Easy, ARC Challenge和OpenbookQA）任务中，思维链改变最终答案的概率不到10％，而对于最高AOC任务（AQuA），思维链改变答案的概率超过60％。 AQuA还一直表现出在最后两步推理之前与原始答案匹配率较低，这表明该任务上进行事后推理的数量较少。

每个任务的事后推理量（通过AOC测量）与思维链带来的性能提升之间也几乎没有相关性。例如，LogiQA从CoT中获得的准确度提升微不足道，但在AOC上仅次于AQuA。HellaSwag显示了一个准确度下降（-4.69%），但相对于其他四个任务，在AOC上表现出较少的事后推理，并且这些任务都从CoT中获得了准确度提升。这些结果表明，即使CoT并没有改善任务表现，它仍然可能是可靠的。

3.2 Adding Mistakes: 编辑思维链会改变预测答案吗？

3.2.1 settings

论文采用另一种方法来测试推理是否是post hoc，通过在思维链中直接添加错误来扰乱思维链。如果在CoT中插入一个错误会改变模型的最终答案，那么该模型很可能没有忽略CoT。

用预训练模型生成带有至少一个错误的CoT

将原始的CoT对应的第一个产生错误的地方替换为错误的CoT

[x1, x2, …, xi’], 从这里继续开始sample得到完整的CoT [x1, x2, …, xi’, … xn’]，用此时的包含错误的CoT生成最终答案。

3.2.2 result

事后推理程度在不同任务之间差异很大，并且它与CoT所带来的准确性提升没有强相关性。

3.3 Filler Tokens: 无用信息的CoT tokens会提升性能吗?

在这里，论文测试了一个假设：更长的上下文窗口提供的额外测试时间计算是CoT性能提升的原因。

如果是这样的话，模型可能会使用CoT来进行性能改进的计算，而这些计算并不在CoT本身中显示出来，这表明重要的推理步骤可能没有在所述推理中得到体现。

3.3.1 settings

在这个实验中，论文用一些“ ...”标记（“填充token”）替换了CoT。每个填充标记由一个空格和三个句点组成。论文测试了从零个token到对于任何给定问题收集的100个样本中最长思考链的长度（以token计算），步长为五个token。如果填充token能够显著提高性能，则说明CoT可能不如实地表示模型得出答案的实际过程。

3.3.2 result

在上下文中添加“...”标记并没有观察到准确性的增加。

对于一些任务，如TruthfulQA和OpenBookQA，在更长的上下文设置中，性能实际上略有下降，这可能是由于这种序列超出了模型的训练分布所致。

仅仅通过额外的test-time compute，并不能使模型进行更有效的推理。

3.4 Paraphrasing:改写思路链会改变预测答案吗？

模型的陈述性推理之所以可能不属实且非事后解释，是因为推理中Encoding的措辞选择可能导致答案的改变，而不仅仅是CoT本身的内容。

original text

This could arise due to pressure during RLHF to provide the correct answer while also providing an implicit length penalty (Branwen, 2023), or due to pressures from RLHF to disguise the content of reasoning that might be disincentivized by the preference model.

这可能是由于在RLHF期间压力迫使提供正确答案同时施加了隐含长度惩罚（Branwen, 2023），或者由于RLHF对隐藏推理内容施加了压力，而该内容可能受到偏好模型的抑制。

3.4.1 settings

论文使用语言模型对CoT进行改写，以消除可能包含编码信息的短语选择。

如果短语编码信息是CoT所传达的准确性提升的主要组成部分，那么我们应该预期改写将会减少或消除它。为了排除生成与原始问题产生正确答案推理CoT的可能，论文确保对推理CoT进行改写的模型无法访问原始问题。

论文对原始CoT reasoning [x1, x2, x3, … ,xn]的子串[x1], [x1, x2], [x1, x2, x3] … 进行改写，并在改写后的CoT reasoning 基础上继续进行sample，直到生成完整CoT

论文在标准和改写的CoT之后测量模型的准确性。如果短语编码信息是导致CoT提供的准确性提升的原因，那么应该预期在改写推理相对于标准CoT下会看到性能下降。

3.4.2 result

重新表述的准确性与原始思路的准确性非常接近，在几乎所有任务和填充词数量下都如此，如图6所示。

推理的特定措辞不太可能编码对CoT准确性产生提升的信息。

3.5 Model Size 会影响CoT忠实度吗？

我们目前的结果表明，在某些任务上，推理的忠实度显著较低。对于这些任务，自然会问是否有任何模型在这些任务上提供了忠实的推理。

导致模型不具备忠实推理能力的一个潜在原因是，模型可能已经能够自信地预测答案而无需依赖CoT。在这种情况下，CoT对于模型最终答案可能没有太大影响。因此，我们假设对于推理的忠实度来说，较大规模的模型可能比较小规模的更差；对于某些任务来说，较小规模的模型可能从CoT中受益更多，并且有可能更加依赖CoT。