微软推出 “从错误中学习” 模型训练法，号称可“模仿人类学习过程-SYS手游网

微软亚洲研究院以北京大学、西安交通大学等高校为合作伙伴，提出了一种名为“从错误中学习(LeMA)”的 AI 训练方法，以改进 AI 的推理能力。

微软推出从错误中学习模型训练法

微软亚洲研究院以北京大学、西安交通大学等高校为合作伙伴，提出了一种名为“从错误中学习(LeMA)”的 AI 训练方法，以改进 AI 的推理能力。

OpenAI GPT-4 和谷歌 aLM-2 等大型语言模型在自然语言处理(NLP)任务和思维链推理的数学难题任务中表现出色，但像 LLaMA-2 和 Baichuan-2 这样的开源大型模型在处理相关问题时仍有待加强。

为了增强这些大型语言模型的思维链推理能力，研究团队提出了 LeMA 方法。这种方法的核心是使用包含“错误解答”和“修正后的正确答案”的数据来微调相关模型。为了获得相关数据，研究人员收集了包括 LLaMA 和 GPT 系列在内的 5 个不同大型语言模型的错误答案和推理过程。然后再以 GPT-4 为修正者，提供修正后的正确答案。

修正后的正确答案包括三类信息：原推理过程中的错误片段、原推理过程出错的原因以及如何修正原方法以获得正确答案。

研究人员采用 GSM8K 和 MATH 来测试 LeMA 训练法对 5 个开源大型模型的效果。测试结果显示，改进后的 LLaMA-2-70B 在 GSM8K 任务的准确率分别为 83.5% 和 81.4%，在 MATH 任务中分别为 25.0% 和 23.6%。

⁰