大模型¶

2025/6/3
分类于大模型
需要 10 分钟阅读时间

轻量级模型 Qwen3-0.6B 有何实际用途

原文地址：https://mp.weixin.qq.com/s/0NwNVgTTd-wmF3ba4DHWKA

Qwen3-0.6B 是阿里巴巴通义千问团队于2025年4月发布的开源大型语言模型系列中的最小版本，拥有 6 亿参数。在大型语言模型（LLM）日益庞大、动辄数十亿参数的今天，Qwen3-0.6B 这样仅有 6 亿参数的小模型是否还有存在的意义？它是否只是技术展示的「玩具」，还是在实际应用中有其独特的价值？

2025/2/28
分类于大模型
需要 10 分钟阅读时间

大模型的微调与蒸馏技术的比较

原文地址：https://mp.weixin.qq.com/s/LljEFjp6ObEKRLpkP0p2-A

LLM 已经彻底改变了人工智能，特别是具有数十亿到数百亿参数的模型，使其在各种自然语言处理（NLP）任务中实现了最先进的表现。然而，它们庞大的体量带来了计算效率、适应性和部署可行性方面的挑战，微调和蒸馏这两种主要技术已经成为关键的优化策略。

微调：涉及调整预训练模型的参数，以提高在特定领域任务上的表现。虽然完整的微调会更新所有权重，但近年来如 LoRA（Low-Rank Adaptation，低秩适应）及其变体 QLoRA 在 PEFT（Parameter-Efficient Fine-Tuning，参数高效微调）方面的进展，使得我们可以只更新总参数的一小部分。将 QLoRA 将 4 位量化（例如，使用 NormalFloat，NF4）与 LoRA 结合，能显著减少内存使用，同时不牺牲性能。
蒸馏：大型高容量教师模型的行为被转移到较小的学生模型中，这种压缩技术通常涉及任务特定的损失函数和教师引导的散度（通常通过Kullback–Leibler散度衡量），旨在减少模型的体积和推理成本，同时保持准确性。

尽管传统上这两种方法被视为独立的策略，但最近的研究表明，混合方法可以充分发挥这两种策略的优势。将参数高效的微调与蒸馏相结合，可以使得一个强大的预训练模型适应特定领域并进行压缩，从而实现高效的推理。

本文将探讨微调与蒸馏在架构、计算和性能方面的权衡，分析 LoRA、4 位量化以及像 KD-LoRA 这样的混合框架等创新如何重塑 LLM 优化的未来。

2025/2/17
分类于大模型
需要 10 分钟阅读时间

DeepSeek-R1 蒸馏前后的 Qwen Tokenizer 变化

原文地址：https://mp.weixin.qq.com/s/HbqzdZOEWBfE3j16uAqsFw

根据 DeepSeek-R1 的论文，DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 预训练 base 模型进行蒸馏 SFT 训练，而不是基于 Qwen2.5-32B-Instruct 的 Chat 模型。

接下来对比这三个开源模型（Qwen2.5-32B、Qwen2.5-32B-Instruct、DeepSeek-R1-Distill-Qwen-32B）的几个主要配置文件，并分析 tokenizer 的异同，最后实测 Chat 模版及 special token。

2025/2/17
分类于大模型
需要 10 分钟阅读时间

把代码变成思维链，大模型推理各能力全面提升

原文地址: https://mp.weixin.qq.com/s/UVx2y8awmknSA3kWGEYDKg

用代码训练大模型思考，其他方面的推理能力也能提升。DeepSeek 团队最新研究，利用 300 多万个实例，将代码转换成思考过程，构建出数据集 CODEI/O，对 Qwen、Llama 等模型进行了训练。

结果，在各种类型的推理任务当中，模型性能都取得了全面提升，包括在非代码类的推理任务上，也展现出了良好的迁移能力。

研究团队认为，在代码当中暗含了不同类型场景的思考过程，于是想要把这种思考过程“提取”出来训练推理模型。他们生成了大量的训练数据运行这些代码，然后把代码、输入/输出对以及功能描述输入 DeepSeek-V2.5，从而合成自然语言形式的推理过程。

在此基础上，团队还引入了验证和修订机制，形成了更高质量的 CODEI/O++(1)。

CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

2025/2/17
分类于大模型
需要 20 分钟阅读时间

将 DeepSeek R1 模型微调成 DeepDoctor

原文地址: https://mp.weixin.qq.com/s/cqh42XH60s0-8Xum04lSjw

DeepSeek 颠覆了 AI 领域，挑战 OpenAI 的主导地位，推出了一系列先进的推理模型。最令人兴奋的是？这些模型完全免费，且没有任何使用限制，人人都可以访问。

在本教程中，我们将对 DeepSeek-R1-Distill-Llama-8B 模型进行微调，使用来自 Hugging Face 的医学思维链数据集进行训练，该精简版 DeepSeek-R1 模型是通过在 DeepSeek-R1 生成的数据上微调 Llama 3.1 8B 模型而创建的。它展示了与原始模型相似的推理能力。

2025/2/17
分类于大模型
需要 10 分钟阅读时间

轻量级的 Agent 框架 —— SmolAgents

原文地址：https://mp.weixin.qq.com/s/KhyGyajIDhUX-xfjK99wFg

Smolagents 是一个可以让你通过几行代码运行强大的 Agent 的 Python 库。它具有以下特点：

简洁性：Agent 的逻辑大约只有 1000 行代码。
一流的 Code Agent 支持：CodeAgent 是一种能够通过代码执行任务的 Agent。传统的 Agent 通常依赖于一些预定义的动作或外部指令，而 CodeAgent 能够动态地生成并执行代码来完成任务。具体来说，CodeAgent 的动作是通过编写实际的代码来实现的，而不是仅仅生成类似 JSON 的命令或指令。

CodeAgent 的关键特点包括：

代码执行：它生成并执行实际的代码来处理任务。例如，它可能会调用外部 API、计算某些值、处理数据等。
高安全性：为了确保执行过程中的安全，CodeAgent 可以在沙箱环境中运行，避免潜在的安全风险。
灵活性：它能够动态适应任务需求，通过编写不同的代码来应对多变的工作流。

相比传统的工具调用型 Agent，CodeAgent 的优势在于它具有更高的灵活性和可定制性，能够根据任务需求实时生成和执行代码，适用于更复杂和动态的工作流。

Hub 集成：你可以将工具共享到 HuggingFace Hub，也可以从 HuggingFace Hub 加载工具，未来还会有更多功能！
模型无关性：smolagents 支持任何 LLM。可以是本地的 Transformers 或 Ollama 模型，也可以是 Hub 上的多个模型提供者，或者通过 LiteLLM 集成使用 OpenAI、Anthropic 等公司的模型。
模态无关性：Agent 支持文本、视觉、视频，甚至音频输入！
工具无关性：可以使用 LangChain、Anthropic 的 MCP 等工具，甚至可以将 Hub 空间作为工具使用。

2025/2/11
分类于大模型
需要 10 分钟阅读时间

如何用 R1 的方式做自有模型的蒸馏

原文地址: https://zhuanlan.zhihu.com/p/23008763392

深度学习模型正在改变人工智能领域，但其庞大的规模和计算需求也成为了实际应用中的瓶颈。模型蒸馏是解决这一问题的一种强大技术手段，它通过从一个复杂的大规模模型（教师）向一个小而高效的模型（学生）蒸馏知识来实现。

2025/2/10
分类于大模型
需要 10 分钟阅读时间

基于 DeepSeek-R1 和 Ollama 搭建本地应用

原文地址: https://mp.weixin.qq.com/s/VpNqMpZ1K9fAAOyr3dmWmw

本教程将详细介绍如何利用 DeepSeek R1 和 Ollama 构建本地化的 RAG（检索增强生成）应用。我们将通过实例演示完整的实现流程，包括文档处理、向量存储、模型调用等关键步骤。

本教程选用 DeepSeek-R1 1.5B 作为基础语言模型。考虑到不同模型具有各自的特点和性能表现，读者可以根据实际需求选择其他合适的模型来实现 RAG 系统。

代码示例

本文档包含核心代码片段和详细解释。完整代码可见 notebook。

2025/2/10
分类于大模型
需要 10 分钟阅读时间

DeepSeek R1 Zero 复现教程

原文地址: https://mp.weixin.qq.com/s/o2l8XRryS5PWRriGQZytWQ

各位同学好，我是来自 Unlock-DeepSeek 开源项目团队的骆师傅。先说结论，我们（Datawhale X 似然实验室）使用 3 张 80G 的 A800计算卡训练了 20 小时，做出了可能是国内首批 DeepSeek R1 Zero 的中文复现版本，我们把它叫做 Datawhale-R1，用于 R1 Zero 复现教学。*

alt text

按照 5.5 ~ 7.0 元每小时的价格计算，3 张 A800 花费最低为 3 x 5.5 x 20 = 330 元，预计花费接近 420 元，而 TinyZero 项目用了 4 张 A800 训练了 8 小时，预计花费为：224 元，这中间的差异可能是由于硬件性能瓶颈和框架差异带来的（我们用的是 Huggingface TRL，TinyZero 使用的是 veRL）。所以建议大家如果真的要复现，请使用 TinyZero 项目，我们出于教育目的使用 TRL 为大家报告这个结果。

另外，不是所有人都能随时随地调用 3 张 A800 的，我们正在努力减小硬件资源要求，让复现工作尽可能平民化（比如在 4090 上跑）。在这里特别感谢：似然实验室，提供本次复现的计算资源，并与 Datawhale 团队合作贡献了本教程。

回到正题，首先回答一个关键问题：为什么这个方案更贵，而我们却选择了它？答案就是：它更符合教育目的，截止本文发布，大部分同学没有足够的资源来亲手体验复现流程，但是我们希望大家能更清楚的看到，复现 R1 Zero 的过程中都发生了什么，真正对复现原理有个大致把握，就算做“云玩家”也要学到知识，看完骆师傅做一遍就好像自己也做了一遍。

本方案在 mini-r1 的基础上改进而来。