我的博客¶

2025/2/17
分类于大模型
需要 10 分钟阅读时间

把代码变成思维链，大模型推理各能力全面提升

原文地址: https://mp.weixin.qq.com/s/UVx2y8awmknSA3kWGEYDKg

用代码训练大模型思考，其他方面的推理能力也能提升。DeepSeek 团队最新研究，利用 300 多万个实例，将代码转换成思考过程，构建出数据集 CODEI/O，对 Qwen、Llama 等模型进行了训练。

结果，在各种类型的推理任务当中，模型性能都取得了全面提升，包括在非代码类的推理任务上，也展现出了良好的迁移能力。

研究团队认为，在代码当中暗含了不同类型场景的思考过程，于是想要把这种思考过程“提取”出来训练推理模型。他们生成了大量的训练数据运行这些代码，然后把代码、输入/输出对以及功能描述输入 DeepSeek-V2.5，从而合成自然语言形式的推理过程。

在此基础上，团队还引入了验证和修订机制，形成了更高质量的 CODEI/O++(1)。

CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

2025/2/17
分类于大模型
需要 20 分钟阅读时间

将 DeepSeek R1 模型微调成 DeepDoctor

原文地址: https://mp.weixin.qq.com/s/cqh42XH60s0-8Xum04lSjw

DeepSeek 颠覆了 AI 领域，挑战 OpenAI 的主导地位，推出了一系列先进的推理模型。最令人兴奋的是？这些模型完全免费，且没有任何使用限制，人人都可以访问。

在本教程中，我们将对 DeepSeek-R1-Distill-Llama-8B 模型进行微调，使用来自 Hugging Face 的医学思维链数据集进行训练，该精简版 DeepSeek-R1 模型是通过在 DeepSeek-R1 生成的数据上微调 Llama 3.1 8B 模型而创建的。它展示了与原始模型相似的推理能力。

2025/2/17
分类于大模型
需要 10 分钟阅读时间

轻量级的 Agent 框架 —— SmolAgents

原文地址：https://mp.weixin.qq.com/s/KhyGyajIDhUX-xfjK99wFg

Smolagents 是一个可以让你通过几行代码运行强大的 Agent 的 Python 库。它具有以下特点：

简洁性：Agent 的逻辑大约只有 1000 行代码。
一流的 Code Agent 支持：CodeAgent 是一种能够通过代码执行任务的 Agent。传统的 Agent 通常依赖于一些预定义的动作或外部指令，而 CodeAgent 能够动态地生成并执行代码来完成任务。具体来说，CodeAgent 的动作是通过编写实际的代码来实现的，而不是仅仅生成类似 JSON 的命令或指令。

CodeAgent 的关键特点包括：

代码执行：它生成并执行实际的代码来处理任务。例如，它可能会调用外部 API、计算某些值、处理数据等。
高安全性：为了确保执行过程中的安全，CodeAgent 可以在沙箱环境中运行，避免潜在的安全风险。
灵活性：它能够动态适应任务需求，通过编写不同的代码来应对多变的工作流。

相比传统的工具调用型 Agent，CodeAgent 的优势在于它具有更高的灵活性和可定制性，能够根据任务需求实时生成和执行代码，适用于更复杂和动态的工作流。

Hub 集成：你可以将工具共享到 HuggingFace Hub，也可以从 HuggingFace Hub 加载工具，未来还会有更多功能！
模型无关性：smolagents 支持任何 LLM。可以是本地的 Transformers 或 Ollama 模型，也可以是 Hub 上的多个模型提供者，或者通过 LiteLLM 集成使用 OpenAI、Anthropic 等公司的模型。
模态无关性：Agent 支持文本、视觉、视频，甚至音频输入！
工具无关性：可以使用 LangChain、Anthropic 的 MCP 等工具，甚至可以将 Hub 空间作为工具使用。

2025/2/16
分类于金融风控
需要 20 分钟阅读时间

深入解析金融风控行为评分卡

原文地址: https://mp.weixin.qq.com/s/BI9BSMhPbjqSnydbY1WxUg

在信贷业务中，评分卡分为三种：申请评分卡（A卡）、行为评分卡（B卡）、催收评分卡（C卡），本篇我们来学习一下行为评分卡，首先什么是行为评分卡呢，行为评分卡的使用场景以及目的，适用的信贷产品有哪些？

2025/2/14
分类于金融风控
需要 20 分钟阅读时间

深入解析金融风控催收评分卡

原文地址: https://mp.weixin.qq.com/s/CuJA0zfdAY4MYT48kTrj6w

1. 催收背景

近年，黑猫投诉上关于举报违法催收的信息越来越多。截止目前已经有 93 万多条投诉记录，并非每次举报都一定会被黑猫投诉接受，真实催收投诉越大于 93 万条。

国家一直在加强金融监管，打击非法催收行为力度越来越大，以保护消费者权益和维护金融市场秩序。以下是一些相关的信息和措施：

2025/2/11
分类于大模型
需要 10 分钟阅读时间

如何用 R1 的方式做自有模型的蒸馏

原文地址: https://zhuanlan.zhihu.com/p/23008763392

深度学习模型正在改变人工智能领域，但其庞大的规模和计算需求也成为了实际应用中的瓶颈。模型蒸馏是解决这一问题的一种强大技术手段，它通过从一个复杂的大规模模型（教师）向一个小而高效的模型（学生）蒸馏知识来实现。

2025/2/10
分类于大模型
需要 10 分钟阅读时间

基于 DeepSeek-R1 和 Ollama 搭建本地应用

原文地址: https://mp.weixin.qq.com/s/VpNqMpZ1K9fAAOyr3dmWmw

本教程将详细介绍如何利用 DeepSeek R1 和 Ollama 构建本地化的 RAG（检索增强生成）应用。我们将通过实例演示完整的实现流程，包括文档处理、向量存储、模型调用等关键步骤。

本教程选用 DeepSeek-R1 1.5B 作为基础语言模型。考虑到不同模型具有各自的特点和性能表现，读者可以根据实际需求选择其他合适的模型来实现 RAG 系统。

代码示例

本文档包含核心代码片段和详细解释。完整代码可见 notebook。

2025/2/10
分类于大模型
需要 10 分钟阅读时间

DeepSeek R1 Zero 复现教程

原文地址: https://mp.weixin.qq.com/s/o2l8XRryS5PWRriGQZytWQ

各位同学好，我是来自 Unlock-DeepSeek 开源项目团队的骆师傅。先说结论，我们（Datawhale X 似然实验室）使用 3 张 80G 的 A800计算卡训练了 20 小时，做出了可能是国内首批 DeepSeek R1 Zero 的中文复现版本，我们把它叫做 Datawhale-R1，用于 R1 Zero 复现教学。*

alt text

按照 5.5 ~ 7.0 元每小时的价格计算，3 张 A800 花费最低为 3 x 5.5 x 20 = 330 元，预计花费接近 420 元，而 TinyZero 项目用了 4 张 A800 训练了 8 小时，预计花费为：224 元，这中间的差异可能是由于硬件性能瓶颈和框架差异带来的（我们用的是 Huggingface TRL，TinyZero 使用的是 veRL）。所以建议大家如果真的要复现，请使用 TinyZero 项目，我们出于教育目的使用 TRL 为大家报告这个结果。

另外，不是所有人都能随时随地调用 3 张 A800 的，我们正在努力减小硬件资源要求，让复现工作尽可能平民化（比如在 4090 上跑）。在这里特别感谢：似然实验室，提供本次复现的计算资源，并与 Datawhale 团队合作贡献了本教程。

回到正题，首先回答一个关键问题：为什么这个方案更贵，而我们却选择了它？答案就是：它更符合教育目的，截止本文发布，大部分同学没有足够的资源来亲手体验复现流程，但是我们希望大家能更清楚的看到，复现 R1 Zero 的过程中都发生了什么，真正对复现原理有个大致把握，就算做“云玩家”也要学到知识，看完骆师傅做一遍就好像自己也做了一遍。

本方案在 mini-r1 的基础上改进而来。

2025/2/8
分类于大模型
需要 10 分钟阅读时间

DeepSeek V1-V3 核心技术点简明解析

原文地址: https://mp.weixin.qq.com/s/PWcDZCluDmc7vRBk7ZN5RA?poc_token=HGlhp2ejfYvO0EmplK2g4MC5y2urO6-treKExOfN

最近，DeepSeek 在国际上很火，一方面其效果比肩非开源模型 ChatGPT，另一方面其运行成本很低。可以说，DeepSeek 是目前为止最先进的大模型之一。

今天这篇文章，就带大家梳理一下从 2024 年至今 DeepSeek 发布的 V1~V3 版本的核心技术点，看看 DeepSeek 采用了哪些技术构建了最先进的大模型，每一次的升级基本都伴随着训练数据的优化、模型结构的升级、优化方式的更新。

为了方便大家阅读，本文会用比较简洁的语言进行主要技术的介绍，一些其他相关的技术细节深度解析，后续也会陆续进行更新。