把代码变成思维链,大模型推理各能力全面提升
用代码训练大模型思考,其他方面的推理能力也能提升。DeepSeek 团队最新研究,利用 300 多万个实例,将代码转换成思考过程,构建出数据集 CODEI/O,对 Qwen、Llama 等模型进行了训练。
结果,在各种类型的推理任务当中,模型性能都取得了全面提升,包括 在非代码类的推理任务上,也展现出了良好的迁移能力。
研究团队认为,在代码当中暗含了不同类型场景的思考过程,于是想要把这种思考过程“提取”出来训练推理模型。他们生成了大量的训练数据运行这些代码,然后把代码、输入/输出对以及功能描述输入 DeepSeek-V2.5,从而合成自然语言形式的推理过程。
在此基础上,团队还引入了验证和修订机制,形成了更高质量的 CODEI/O++(1)。
- CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction