跳转至

我的博客

把代码变成思维链,大模型推理各能力全面提升

原文地址: https://mp.weixin.qq.com/s/UVx2y8awmknSA3kWGEYDKg

用代码训练大模型思考,其他方面的推理能力也能提升。DeepSeek 团队最新研究,利用 300 多万个实例,将代码转换成思考过程,构建出数据集 CODEI/O,对 Qwen、Llama 等模型进行了训练。

结果,在各种类型的推理任务当中,模型性能都取得了全面提升,包括 在非代码类的推理任务上,也展现出了良好的迁移能力

研究团队认为,在代码当中暗含了不同类型场景的思考过程,于是想要把这种思考过程“提取”出来训练推理模型。他们生成了大量的训练数据运行这些代码,然后把代码、输入/输出对以及功能描述输入 DeepSeek-V2.5,从而合成自然语言形式的推理过程。

在此基础上,团队还引入了验证和修订机制,形成了更高质量的 CODEI/O++(1)。

  1. CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

将 DeepSeek R1 模型微调成 DeepDoctor

原文地址: https://mp.weixin.qq.com/s/cqh42XH60s0-8Xum04lSjw

DeepSeek 颠覆了 AI 领域,挑战 OpenAI 的主导地位,推出了一系列先进的推理模型。最令人兴奋的是?这些模型完全免费,且没有任何使用限制,人人都可以访问。

在本教程中,我们将对 DeepSeek-R1-Distill-Llama-8B 模型进行微调,使用来自 Hugging Face 的医学思维链数据集进行训练,该精简版 DeepSeek-R1 模型是通过在 DeepSeek-R1 生成的数据上微调 Llama 3.1 8B 模型而创建的。它展示了与原始模型相似的推理能力。

轻量级的 Agent 框架 —— SmolAgents

原文地址:https://mp.weixin.qq.com/s/KhyGyajIDhUX-xfjK99wFg

Smolagents 是一个可以让你通过几行代码运行强大的 Agent 的 Python 库。它具有以下特点:

  • 简洁性:Agent 的逻辑大约只有 1000 行代码。
  • 一流的 Code Agent 支持:CodeAgent 是一种能够通过代码执行任务的 Agent。传统的 Agent 通常依赖于一些预定义的动作或外部指令,而 CodeAgent 能够动态地生成并执行代码来完成任务。具体来说,CodeAgent 的动作是通过编写实际的代码来实现的,而不是仅仅生成类似 JSON 的命令或指令。

CodeAgent 的关键特点包括:

  • 代码执行:它生成并执行实际的代码来处理任务。例如,它可能会调用外部 API、计算某些值、处理数据等。
  • 高安全性:为了确保执行过程中的安全,CodeAgent 可以在沙箱环境中运行,避免潜在的安全风险。
  • 灵活性:它能够动态适应任务需求,通过编写不同的代码来应对多变的工作流。

相比传统的工具调用型 Agent,CodeAgent 的优势在于它具有更高的灵活性和可定制性,能够根据任务需求实时生成和执行代码,适用于更复杂和动态的工作流。

  • Hub 集成:你可以将工具共享到 HuggingFace Hub,也可以从 HuggingFace Hub 加载工具,未来还会有更多功能!
  • 模型无关性:smolagents 支持任何 LLM。可以是本地的 Transformers 或 Ollama 模型,也可以是 Hub 上的多个模型提供者,或者通过 LiteLLM 集成使用 OpenAI、Anthropic 等公司的模型。
  • 模态无关性:Agent 支持文本、视觉、视频,甚至音频输入!
  • 工具无关性:可以使用 LangChain、Anthropic 的 MCP 等工具,甚至可以将 Hub 空间作为工具使用。

深入解析金融风控催收评分卡

原文地址: https://mp.weixin.qq.com/s/CuJA0zfdAY4MYT48kTrj6w

1. 催收背景

近年,黑猫投诉上关于举报违法催收的信息越来越多。截止目前已经有 93 万多条投诉记录,并非每次举报都一定会被黑猫投诉接受,真实催收投诉越大于 93 万条。

国家一直在加强金融监管,打击非法催收行为力度越来越大,以保护消费者权益和维护金融市场秩序。以下是一些相关的信息和措施:

基于 DeepSeek-R1 和 Ollama 搭建本地应用

原文地址: https://mp.weixin.qq.com/s/VpNqMpZ1K9fAAOyr3dmWmw

本教程将详细介绍如何利用 DeepSeek R1 和 Ollama 构建本地化的 RAG(检索增强生成)应用。我们将通过实例演示完整的实现流程,包括文档处理、向量存储、模型调用等关键步骤。

本教程选用 DeepSeek-R1 1.5B 作为基础语言模型。考虑到不同模型具有各自的特点和性能表现,读者可以根据实际需求选择其他合适的模型来实现 RAG 系统。

代码示例

本文档包含核心代码片段和详细解释。完整代码可见 notebook

DeepSeek R1 Zero 复现教程

原文地址: https://mp.weixin.qq.com/s/o2l8XRryS5PWRriGQZytWQ

各位同学好,我是来自 Unlock-DeepSeek 开源项目团队的骆师傅。先说结论,我们(Datawhale X 似然实验室)使用 3 张 80G 的 A800计算卡训练了 20 小时,做出了可能是国内首批 DeepSeek R1 Zero 的中文复现版本,我们把它叫做 Datawhale-R1,用于 R1 Zero 复现教学。*

alt text

按照 5.5 ~ 7.0 元每小时的价格计算,3 张 A800 花费最低为 3 x 5.5 x 20 = 330 元,预计花费接近 420 元,而 TinyZero 项目用了 4 张 A800 训练了 8 小时,预计花费为:224 元,这中间的差异可能是由于硬件性能瓶颈和框架差异带来的(我们用的是 Huggingface TRL,TinyZero 使用的是 veRL)。所以建议大家如果真的要复现,请使用 TinyZero 项目,我们出于教育目的使用 TRL 为大家报告这个结果。

另外,不是所有人都能随时随地调用 3 张 A800 的,我们正在努力减小硬件资源要求,让复现工作尽可能平民化(比如在 4090 上跑)。在这里特别感谢:似然实验室,提供本次复现的计算资源,并与 Datawhale 团队合作贡献了本教程。

回到正题,首先回答一个关键问题:为什么这个方案更贵,而我们却选择了它?答案就是:它更符合教育目的,截止本文发布,大部分同学没有足够的资源来亲手体验复现流程,但是我们希望大家能更清楚的看到,复现 R1 Zero 的过程中都发生了什么,真正对复现原理有个大致把握,就算做“云玩家”也要学到知识,看完骆师傅做一遍就好像自己也做了一遍。

本方案在 mini-r1 的基础上改进而来。

DeepSeek V1-V3 核心技术点简明解析

原文地址: https://mp.weixin.qq.com/s/PWcDZCluDmc7vRBk7ZN5RA?poc_token=HGlhp2ejfYvO0EmplK2g4MC5y2urO6-treKExOfN

最近,DeepSeek 在国际上很火,一方面其效果比肩非开源模型 ChatGPT,另一方面其运行成本很低。可以说,DeepSeek 是目前为止最先进的大模型之一。

今天这篇文章,就带大家梳理一下从 2024 年至今 DeepSeek 发布的 V1~V3 版本的核心技术点,看看 DeepSeek 采用了哪些技术构建了最先进的大模型,每一次的升级基本都伴随着训练数据的优化、模型结构的升级、优化方式的更新。

为了方便大家阅读,本文会用比较简洁的语言进行主要技术的介绍,一些其他相关的技术细节深度解析,后续也会陆续进行更新。