跳转至

我的博客

Transformer 解析

原文地址:https://mp.weixin.qq.com/s/jMUjAzyhX1sIbmZXx1ILKg

Transformer 是深度学习中一种用于处理序列数据(如文本、音频、时间序列等)的模型架构,具有并行处理和捕捉远程依赖关系的能力,它的核心创新是自注意力机制(Self-Attention Mechanism),使得模型能够在不依赖于递归结构的情况下处理序列中的全局依赖。

Transformer 最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出,与传统的循环神经网络(RNN)和长短期记忆网络(LSTM)不同,它不需要按顺序处理数据,而是通过 自注意力机制(Self-Attention Mechanism)来处理数据。这种设计使得 Transformer 能够更有效地并行处理数据,从而在处理长序列时更加高效。

Transformer架构

卷积神经网络

原文地址:https://mp.weixin.qq.com/s/ZdqhybBTt7Xd0CE2WEoYjg

卷积神经网络(Convolutional Neural Network,CNN)是一种深度学习的架构,特别适用于处理具有网格拓扑结构的数据,如图像(2D网格)和音频(1D序列),它在计算机视觉、图像和视频识别、图像分类、医学图像分析等领域中非常流行且有效。

机器学习中的交叉验证

原文地址:https://mp.weixin.qq.com/s/q0pMvHDXLl7xWxmB4OqSvw

交叉验证(Cross-Validation)是机器学习中一种常用的模型验证技术,用于评估模型的表现,并防止模型过拟合。它通过在不同的训练-验证集划分上重复训练模型,从而得到更稳健的模型评估结果,其核心思想是将数据集划分为多个子集,通过在这些子集之间轮流训练和验证模型,评估模型的泛化能力。

使用网格搜索和K折交叉验证来优化 XGBoost 分类模型

原文地址:https://mp.weixin.qq.com/s/uBrIfGc8PXIx1xiKC1dtww

本篇文章将重点介绍如何在分类任务中对 XGBoost 进行优化,XGBoost 的优势在于其处理大规模数据、提高模型准确性的同时能够防止过拟合,然而要充分发挥 XGBoost 在分类任务中的潜力,选择合适的超参数至关重要。

为了寻找最佳的超参数组合,通常会借助 网格搜索K 折交叉验证 优化技术。网格搜索通过系统地遍历多个超参数组合来确定最佳配置,而 K 折交叉验证则通过将数据集分成 K 个子集以评估模型的泛化能力,结合这两种方法,可以有效地避免单次训练可能带来的过拟合风险,并为模型选择最佳的超参数。

接下来,我们将通过具体的示例代码,详细演示如何运用网格搜索和K折交叉验证优化 XGBoost 分类模型的过程。

终于将 Transformer 算法搞懂了

原文地址: https://mp.weixin.qq.com/s/uMICN3Qi4IZJGhtnmuaaGQ

Transformer 架构

Transformer 是一种深度学习模型架构,最早由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出,专门为处理序列数据(如自然语言处理任务中、时间序列预测等)而设计。

与之前的递归神经网络(RNN)和长短期记忆网络(LSTM)相比,Transformer 通过 注意力机制(Attention Mechanism)来捕捉序列中各个元素之间的依赖关系,从而避免了传统序列模型(RNN 和 LSTM)在处理长序列时的 梯度消失或梯度爆炸 的问题,显著提高了并行计算的能力,并且在处理长序列时具有更好的效果。

DeepSeek-R1 蒸馏前后的 Qwen Tokenizer 变化

原文地址:https://mp.weixin.qq.com/s/HbqzdZOEWBfE3j16uAqsFw

根据 DeepSeek-R1 的论文,DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 预训练 base 模型进行蒸馏 SFT 训练,而不是基于 Qwen2.5-32B-Instruct 的 Chat 模型。

接下来对比这三个开源模型(Qwen2.5-32B、Qwen2.5-32B-Instruct、DeepSeek-R1-Distill-Qwen-32B)的几个主要配置文件,并分析 tokenizer 的异同,最后实测 Chat 模版及 special token。