Review of ScienceQA | Gongtianxiang Blog

type

status

date

slug

summary

前置芝士

在回答复杂的问题时，人类可以理解不同模态的信息，并形成一个完整的思维链（Chain of Thought, CoT）。深度学习模型是否可以打开“黑箱”，对其推理过程提供一个思维链？近日，UCLA和艾伦人工智能研究院（AI2）提出了首个标注详细解释的多模态科学问答数据集ScienceQA，用于测试模型的多模态推理能力。在ScienceQA任务中，作者提出GPT-3 (CoT)模型，即在GPT-3模型中引入基于思维链的提示学习，从而使得模型能在生成答案的同时，生成相应的推理解释。GPT-3 (CoT)在ScienceQA上实现了75.17%的准确率；并且人类评估表明，其可以生成较高质量的解释。

像人类一样有效地学习并完成复杂的任务是人工智能追求的长远目标之一。人类在决策过程中，可以遵循一个完整的思维链（CoT）推理过程，从而对给出的答案做出合理的解释。然而，已有的机器学习模型大多依赖大量的输入-输出样本训练来完成具体的任务。这些黑箱模型往往直接生成最终的答案，而没有揭示具体的推理过程。

科学问答任务（Science Question Answering）可以很好地诊断人工智能模型是否具有多步推理能力和可解释性。为了回答科学问题，一个模型不仅需要理解多模态内容，还需要提取外部知识以得出正确答案。同时，一个可靠的模型还应该给出揭示其推理过程的解释。然而，目前的科学问答数据集大多缺乏对答案的详细解释，或者局限于文字模态。

Motivation

在回答复杂的问题时，人类可以理解不同模态的信息，并形成一个完整的思维链，通过一步步的推理得到最终的答案。深度学习模型作为一个黑盒模型(black box)，一般就是给定输入，获取其输出，我们并不知道其中间的推理过程，在这样的情况下，深度学习模型是否能对其推理过程提供一个思维链，并且这样的思维链对结果会有怎么样的影响？

Contribution

ScienceQA：科学多模态数据集，包含多个领域21208条有标注和解释的数据

CoT(Chain of Thought)能够通过生成解释提升模型在few-shot和fine-tuning过程的性能和可靠性

CoT能帮助大语言模型通过更少的数据学习

QA：

lecture：介绍背景信息的通用知识

explanation：具体答案的推理过程

Baseline:

Heuristic baselines: random chancevs human performance

Zero-shot & few-shot baselines: UnifiedQA(SOTA) GPT-3

format: QCM→A
对于图片和视觉上下文，用caption模型提取图片中的caption信息

fine-tuning baselines： fine-tuning VQA模型将问题(question), 上下文(context), 选项(choices)作为文字输入，将图片(image)作为视觉输入来预测答案。此外， fine-tuning 大语言模型UnifiedQA，同样将图片转换为caption给语言模型提供视觉予以信息。

CoT

思维链指的是揭示推理问题的前提和结论的连贯的一系列句子。一条思路链清晰地将一个多步推理任务分解成中间步骤，而不是以黑盒的方式求解任务。或者，思维链是在得出最终答案或答案后的解释之前的一步一步的思考过程。

few-shot

模型通过从极少量的示例中学习到通用的模式和规律，从而能够在之后应用于类似的任务中

More Detail

详见思维导图