轻量级模型 Qwen3-0.6B 有何实际用途
Qwen3-0.6B 是阿里巴巴通义千问团队于2025年4月发布的开源大型语言模型系列中的最小版本,拥有 6 亿参数。在大型语言模型(LLM)日益庞大、动辄数十亿参数的今天,Qwen3-0.6B 这样仅有 6 亿参数的小模型是否还有存在的意义?它是否只是技术展示的「玩具」,还是在实际应用中有其独特的价值?
Qwen3-0.6B 是阿里巴巴通义千问团队于2025年4月发布的开源大型语言模型系列中的最小版本,拥有 6 亿参数。在大型语言模型(LLM)日益庞大、动辄数十亿参数的今天,Qwen3-0.6B 这样仅有 6 亿参数的小模型是否还有存在的意义?它是否只是技术展示的「玩具」,还是在实际应用中有其独特的价值?
LLM 已经彻底改变了人工智能,特别是具有数十亿到数百亿参数的模型,使其在各种自然语言处理(NLP)任务中实现了最先进的表现。然而,它们庞大的体量带来了计算效率、适应性和部署可行性方面的挑战,微调 和 蒸馏 这两种主要技术已经成为关键的优化策略。
尽管传统上这两种方法被视为独立的策略,但最近的研究表明,混合方法可以充分发挥这两种策略的优势。将参数高效的微调与蒸馏相结合,可以使得一个强大的预训练模型适应特定领域并进行压缩,从而实现高效的推理。
本文将探讨微调与蒸馏在架构、计算和性能方面的权衡,分析 LoRA、4 位量化以及像 KD-LoRA 这样的混合框架等创新如何重塑 LLM 优化的未来。
根据 DeepSeek-R1 的论文,DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 预训练 base 模型进行蒸馏 SFT 训练,而不是基于 Qwen2.5-32B-Instruct 的 Chat 模型。
接下来对比这三个开源模型(Qwen2.5-32B、Qwen2.5-32B-Instruct、DeepSeek-R1-Distill-Qwen-32B)的几个主要配置文件,并分析 tokenizer 的异同,最后实测 Chat 模版及 special token。
用代码训练大模型思考,其他方面的推理能力也能提升。DeepSeek 团队最新研究,利用 300 多万个实例,将代码转换成思考过程,构建出数据集 CODEI/O,对 Qwen、Llama 等模型进行了训练。
结果,在各种类型的推理任务当中,模型性能都取得了全面提升,包括 在非代码类的推理任务上,也展现出了良好的迁移能力。
研究团队认为,在代码当中暗含了不同类型场景的思考过程,于是想要把这种思考过程“提取”出来训练推理模型。他们生成了大量的训练数据运行这些代码,然后把代码、输入/输出对以及功能描述输入 DeepSeek-V2.5,从而合成自然语言形式的推理过程。
在此基础上,团队还引入了验证和修订机制,形成了更高质量的 CODEI/O++(1)。
DeepSeek 颠覆了 AI 领域,挑战 OpenAI 的主导地位,推出了一系列先进的推理模型。最令人兴奋的是?这些模型完全免费,且没有任何使用限制,人人都可以访问。
在本教程中,我们将对 DeepSeek-R1-Distill-Llama-8B 模型进行微调,使用来自 Hugging Face 的医学思维链数据集进行训练,该精简版 DeepSeek-R1 模型是通过在 DeepSeek-R1 生成的数据上微调 Llama 3.1 8B 模型而创建的。它展示了与原始模型相似的推理能力。
Smolagents 是一个可以让你通过几行代码运行强大的 Agent 的 Python 库。它具有以下特点:
CodeAgent 的关键特点包括:
相比传统的工具调用型 Agent,CodeAgent 的优势在于它具有更高的灵活性和可定制性,能够根据任务需求实时生成和执行代码,适用于更复杂和动态的工作流。
深度学习模型正在改变人工智能领域,但其庞大的规模和计算需求也成为了实际应用中的瓶颈。模型蒸馏是解决这一问题的一种强大技术手段,它通过 从一个复杂的大规模模型(教师)向一个小而高效的模型(学生)蒸馏知识 来实现。
本教程将详细介绍如何利用 DeepSeek R1 和 Ollama 构建本地化的 RAG(检索增强生成)应用。我们将通过实例演示完整的实现流程,包括文档处理、向量存储、模型调用等关键步骤。
本教程选用 DeepSeek-R1 1.5B 作为基础语言模型。考虑到不同模型具有各自的特点和性能表现,读者可以根据实际需求选择其他合适的模型来实现 RAG 系统。
代码示例
本文档包含核心代码片段和详细解释。完整代码可见 notebook。
各位同学好,我是来自 Unlock-DeepSeek 开源项目团队的骆师傅。先说结论,我们(Datawhale X 似然实验室)使用 3 张 80G 的 A800计算卡训练了 20 小时,做出了可能是国内首批 DeepSeek R1 Zero 的中文复现版本,我们把它叫做 Datawhale-R1,用于 R1 Zero 复现教学。*
按照 5.5 ~ 7.0 元每小时的价格计算,3 张 A800 花费最低为 3 x 5.5 x 20 = 330 元,预计花费接近 420 元,而 TinyZero 项目用了 4 张 A800 训练了 8 小时,预计花费为:224 元,这中间的差异可能是由于硬件性能瓶颈和框架差异带来的(我们用的是 Huggingface TRL,TinyZero 使用的是 veRL)。所以建议大家如果真的要复现,请使用 TinyZero 项目,我们出于教育目的使用 TRL 为大家报告这个结果。
另外,不是所有人都能随时随地调用 3 张 A800 的,我们正在努力减小硬件资源要求,让复现工作尽可能平民化(比如在 4090 上跑)。在这里特别感谢:似然实验室,提供本次复现的计算资源,并与 Datawhale 团队合作贡献了本教程。
回到正题,首先回答一个关键问题:为什么这个方案更贵,而我们却选择了它?答案就是:它更符合教育目的,截止本文发布,大部分同学没有足够的资源来亲手体验复现流程,但是我们希望大家能更清楚的看到,复现 R1 Zero 的过程中都发生了什么,真正对复现原理有个大致把握,就算做“云玩家”也要学到知识,看完骆师傅做一遍就好像自己也做了一遍。
本方案在 mini-r1 的基础上改进而来。