我的博客¶

2025/3/20
分类于软件工具
需要 2 分钟阅读时间

大模型的微调与蒸馏技术的比较

原文地址：https://mp.weixin.qq.com/s/LljEFjp6ObEKRLpkP0p2-A

LLM 已经彻底改变了人工智能，特别是具有数十亿到数百亿参数的模型，使其在各种自然语言处理（NLP）任务中实现了最先进的表现。然而，它们庞大的体量带来了计算效率、适应性和部署可行性方面的挑战，微调和蒸馏这两种主要技术已经成为关键的优化策略。

微调：涉及调整预训练模型的参数，以提高在特定领域任务上的表现。虽然完整的微调会更新所有权重，但近年来如 LoRA（Low-Rank Adaptation，低秩适应）及其变体 QLoRA 在 PEFT（Parameter-Efficient Fine-Tuning，参数高效微调）方面的进展，使得我们可以只更新总参数的一小部分。将 QLoRA 将 4 位量化（例如，使用 NormalFloat，NF4）与 LoRA 结合，能显著减少内存使用，同时不牺牲性能。
蒸馏：大型高容量教师模型的行为被转移到较小的学生模型中，这种压缩技术通常涉及任务特定的损失函数和教师引导的散度（通常通过Kullback–Leibler散度衡量），旨在减少模型的体积和推理成本，同时保持准确性。

尽管传统上这两种方法被视为独立的策略，但最近的研究表明，混合方法可以充分发挥这两种策略的优势。将参数高效的微调与蒸馏相结合，可以使得一个强大的预训练模型适应特定领域并进行压缩，从而实现高效的推理。

本文将探讨微调与蒸馏在架构、计算和性能方面的权衡，分析 LoRA、4 位量化以及像 KD-LoRA 这样的混合框架等创新如何重塑 LLM 优化的未来。

2025/2/24
分类于环境搭建
需要 10 分钟阅读时间

机器学习中常用评估指标

原文地址：https://mp.weixin.qq.com/s/d6H_NIxyKioZ1Jn8rDg5_Q

Transformer 解析

原文地址：https://mp.weixin.qq.com/s/jMUjAzyhX1sIbmZXx1ILKg

Transformer 是深度学习中一种用于处理序列数据（如文本、音频、时间序列等）的模型架构，具有并行处理和捕捉远程依赖关系的能力，它的核心创新是自注意力机制（Self-Attention Mechanism），使得模型能够在不依赖于递归结构的情况下处理序列中的全局依赖。

Transformer 最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出，与传统的循环神经网络（RNN）和长短期记忆网络（LSTM）不同，它不需要按顺序处理数据，而是通过 自注意力机制（Self-Attention Mechanism）来处理数据。这种设计使得 Transformer 能够更有效地并行处理数据，从而在处理长序列时更加高效。

Transformer架构

2025/2/22
分类于深度学习
需要 20 分钟阅读时间

卷积神经网络

原文地址：https://mp.weixin.qq.com/s/ZdqhybBTt7Xd0CE2WEoYjg

卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习的架构，特别适用于处理具有网格拓扑结构的数据，如图像（2D网格）和音频（1D序列），它在计算机视觉、图像和视频识别、图像分类、医学图像分析等领域中非常流行且有效。

2025/2/22
分类于机器学习
需要 20 分钟阅读时间

机器学习中的交叉验证

原文地址：https://mp.weixin.qq.com/s/q0pMvHDXLl7xWxmB4OqSvw

交叉验证（Cross-Validation）是机器学习中一种常用的模型验证技术，用于评估模型的表现，并防止模型过拟合。它通过在不同的训练-验证集划分上重复训练模型，从而得到更稳健的模型评估结果，其核心思想是将数据集划分为多个子集，通过在这些子集之间轮流训练和验证模型，评估模型的泛化能力。

2025/2/20
分类于机器学习
需要 20 分钟阅读时间

使用网格搜索和K折交叉验证来优化 XGBoost 分类模型

原文地址：https://mp.weixin.qq.com/s/uBrIfGc8PXIx1xiKC1dtww

本篇文章将重点介绍如何在分类任务中对 XGBoost 进行优化，XGBoost 的优势在于其处理大规模数据、提高模型准确性的同时能够防止过拟合，然而要充分发挥 XGBoost 在分类任务中的潜力，选择合适的超参数至关重要。

为了寻找最佳的超参数组合，通常会借助 网格搜索 和 K 折交叉验证 优化技术。网格搜索通过系统地遍历多个超参数组合来确定最佳配置，而 K 折交叉验证则通过将数据集分成 K 个子集以评估模型的泛化能力，结合这两种方法，可以有效地避免单次训练可能带来的过拟合风险，并为模型选择最佳的超参数。

接下来，我们将通过具体的示例代码，详细演示如何运用网格搜索和K折交叉验证优化 XGBoost 分类模型的过程。

分类	名称	描述
大模型	N8N	N8N 是最近强势兴起的一款 AI 工作流软件，他将多个应用程序连接起来，以实现自动化。
大模型	Dify	Dify 是一个基于 OpenAI 的大语言模型（LLM）的智能对话平台，它提供了一套完整的 LLM 应用开发框架，包括模型训练、模型部署、模型管理、模型评估、模型优化等。
	Indexify
	Kiln	大模型微调工具

我的博客¶

工作流

大模型的微调与蒸馏技术的比较

Feast

OOMOL Studio

Windmill

机器学习中常用评估指标

1. 分类指标

1.1 混淆矩阵

1.1.1 准确率

1.1.2 召回率

1.1.3 特异性

1.1.4 精度

1.1.5 F1值

2. ROC 曲线

2. 回归指标

2.1 平均绝对误差（MAE）

2.2 均方误差（MSE）

2.3 均方根误差（RMSE）

2.4 R 方（R2）

2.5 调整后的 R 方

Transformer 解析

卷积神经网络

机器学习中的交叉验证

使用网格搜索和K折交叉验证来优化 XGBoost 分类模型