跳转至

大模型

DeepSeek V1-V3 核心技术点简明解析

原文地址: https://mp.weixin.qq.com/s/PWcDZCluDmc7vRBk7ZN5RA?poc_token=HGlhp2ejfYvO0EmplK2g4MC5y2urO6-treKExOfN

最近,DeepSeek 在国际上很火,一方面其效果比肩非开源模型 ChatGPT,另一方面其运行成本很低。可以说,DeepSeek 是目前为止最先进的大模型之一。

今天这篇文章,就带大家梳理一下从 2024 年至今 DeepSeek 发布的 V1~V3 版本的核心技术点,看看 DeepSeek 采用了哪些技术构建了最先进的大模型,每一次的升级基本都伴随着训练数据的优化、模型结构的升级、优化方式的更新。

为了方便大家阅读,本文会用比较简洁的语言进行主要技术的介绍,一些其他相关的技术细节深度解析,后续也会陆续进行更新。