机器学习¶

2025/6/18
分类于机器学习
需要 20 分钟阅读时间

自动归因算法：Adtributor 和 MCTS

原文地址：https://mp.weixin.qq.com/s/E5SxU5PwzOnp07_I9HdrPw

数据分析和数据运营每天都得花些时间回答灵魂拷问：指标为啥降了/为啥涨了？回答这些问题，不仅耗时耗力，还容易怀疑人生，啥也没干，咋指标又变了。不是所有的问题都有正确答案，但是所有的问题都可以有一套科学的思考逻辑去尝试，至少可以往前走一步，离答案更进一步；

学会用下面这些自动化归因算法，数据同学们在波动归因时可以往前多走一步，快速定位可能的根因，能节省不少时间。

2025/6/18
分类于机器学习
需要 20 分钟阅读时间

自动归因算法：Squeeze

原文地址：https://mp.weixin.qq.com/s/8sGxPrBokWJCpOfUQBu6YQ

2025/6/10
分类于机器学习
需要 20 分钟阅读时间

评估指标差异对XGBoost特征筛选与模型性能排名的影响

原文地址：https://mp.weixin.qq.com/s/uySG1mER1vHitV-k7mSsSg

在机器学习中，特征选择是提高模型性能、减少计算复杂度和避免过拟合的关键步骤。而选择合适的特征选择方法，可以大大提升模型的准确性和训练效率。常见的特征选择方法有很多，这里介绍两种方法 前向特征选择 和 递归特征消除（RFE）。

前向特征选择和RFE的主要区别就在于它们如何进行特征排名和模型训练：

前向特征选择会固定特征排名：在前向特征选择中，特征是按照某种标准进行预排序的。每次添加一个特征（排名最高），模型训练一次，并评估该特征对模型性能的影响。每个特征的排名是基于初始的预排序结果确定的，所以在整个过程中特征的排名不会动态变化。
递归特征消除（RFE）是动态特征排名：与前向特征选择不同，RFE是动态的，每次删除一个特征后（排名最低），都会重新训练模型，并计算剩余特征的相对重要性。每次训练和删除都会影响特征的排名，因此每次训练后特征排名会发生变化。这使得RFE在筛选特征时的顺序是动态变化的，因此最后的特征选择结果会受到每次模型训练的影响，RFE也可以看作是后向特征筛选的一种实现形式。

实际上，前向特征选择和递归特征消除（RFE）都与 特征排名 密切相关。无论是通过逐步添加特征，还是通过递归删除不重要的特征，它们的选择过程都依赖于特征的重要性排序。因此，特征的排名直接决定了哪些特征被选中，哪些特征被剔除。如果特征排名发生变化，最终的特征选择结果也会发生显著变化。特征排名的不同将会直接影响模型中保留的特征，进而影响模型的表现。

为了深入理解这种影响，本文将利用 XGBoost模型探讨不同评估指标下特征排名对特征筛选的影响。

2025/6/9
分类于机器学习
需要 15 分钟阅读时间

逻辑回归 vs XGBoost

原文地址：https://mp.weixin.qq.com/s/uEMQXYs27MyZsN6-82-ccA

逻辑回归（Logistic Regression）和 XGBoost（eXtreme Gradient Boosting）是分类任务中广泛使用的两种机器学习模型，它们代表了机器学习中两种典型的思想：

逻辑回归：简洁的线性模型，适合解释性强、计算开销小的场景；
XGBoost：复杂的集成模型，强调预测精度和模型能力，适合高维非线性任务。

我们将从模型结构、数学推导、损失函数、优化方法、泛化能力等等介绍。

2025/6/7
分类于机器学习
需要 20 分钟阅读时间

XGBoost中基于相关系数剔除多重共线性与穷举法进行特征选择

原文地址：https://mp.weixin.qq.com/s/pP2zTIyOcD8iNa06sQSYXQ

2025/2/24
分类于机器学习
需要 20 分钟阅读时间

机器学习中常用评估指标

原文地址：https://mp.weixin.qq.com/s/d6H_NIxyKioZ1Jn8rDg5_Q

1. 分类指标

1.1 混淆矩阵

1.1.1 准确率

1.1.2 召回率

1.1.3 特异性

1.1.4 精度

1.1.5 F1值

2. ROC 曲线

2. 回归指标

2.1 平均绝对误差（MAE）

2.2 均方误差（MSE）

2.3 均方根误差（RMSE）

2.4 R 方（R2）

2.5 调整后的 R 方

2025/2/22
分类于机器学习
需要 20 分钟阅读时间

机器学习中的交叉验证

原文地址：https://mp.weixin.qq.com/s/q0pMvHDXLl7xWxmB4OqSvw

交叉验证（Cross-Validation）是机器学习中一种常用的模型验证技术，用于评估模型的表现，并防止模型过拟合。它通过在不同的训练-验证集划分上重复训练模型，从而得到更稳健的模型评估结果，其核心思想是将数据集划分为多个子集，通过在这些子集之间轮流训练和验证模型，评估模型的泛化能力。

2025/2/20
分类于机器学习
需要 20 分钟阅读时间

使用网格搜索和K折交叉验证来优化 XGBoost 分类模型

原文地址：https://mp.weixin.qq.com/s/uBrIfGc8PXIx1xiKC1dtww

本篇文章将重点介绍如何在分类任务中对 XGBoost 进行优化，XGBoost 的优势在于其处理大规模数据、提高模型准确性的同时能够防止过拟合，然而要充分发挥 XGBoost 在分类任务中的潜力，选择合适的超参数至关重要。

为了寻找最佳的超参数组合，通常会借助 网格搜索 和 K 折交叉验证 优化技术。网格搜索通过系统地遍历多个超参数组合来确定最佳配置，而 K 折交叉验证则通过将数据集分成 K 个子集以评估模型的泛化能力，结合这两种方法，可以有效地避免单次训练可能带来的过拟合风险，并为模型选择最佳的超参数。

接下来，我们将通过具体的示例代码，详细演示如何运用网格搜索和K折交叉验证优化 XGBoost 分类模型的过程。

2024/7/25
分类于机器学习
需要 2 分钟阅读时间

机器学习文章

2024/7/12
分类于机器学习
需要 15 分钟阅读时间

提升树模型

多种提升树模型集成预测

预测 California 的房价，分别训练 LGBM、XGB、CatBoost 与 NGB 4 个模型，对多个预测值取平均，使用 MSE、RMSE、MAE 以及 R² 评估模型效果。

通过对 4 个模型的预测值取平均的方式，在评估指标上略优于 LGBM 和 XGB 的集成预测效果
LightGBM 和 XGBoost 集成预测

预测城市循环燃油消耗 (1)，使用 KNN 算法填充特缺失值，对特征和标签都进行了归一化（最大最小缩放），分别训练 LGBM 和 XGB 模型，对两个模型的预测值取平均，使用 MSE、RMSE、MAE 以及 R² 评估模型效果。

每加仑英里数 (Miles Per Gallon, MPG)