我的博客¶

2025/6/11
分类于工作汇报
需要 10 分钟阅读时间

PPT素材模板站点

名称	描述	备注
SlideEgg	国外的一个 PPT 站点	提供免费和付费模板
PresentationGo	国外的一个 PPT 站点	提供免费和付费模板
SlideShare	国外的一个 PPT 站点	30天内可免费下载

2025/6/10
分类于商业分析
需要 20 分钟阅读时间

衡量用户研究的ROI

原文地址：https://mp.weixin.qq.com/s/HIXlWSJNMFf_z5mvGRT0ww

用户研究在驱动产品创新、提升用户体验和实现商业成功方面扮演着日益关键的角色。然而，长期以来，很多企业的用研团队都需要持续自证价值，这件事轻则影响能获得的调研资金预算，重则关乎整个用研团队的生死存亡。

本文旨在深入探讨衡量用户研究ROI的重要性、面临的挑战、核心框架与模型、具体计算方法、实施策略以及未来趋势。

2025/6/10
分类于机器学习
需要 20 分钟阅读时间

评估指标差异对XGBoost特征筛选与模型性能排名的影响

原文地址：https://mp.weixin.qq.com/s/uySG1mER1vHitV-k7mSsSg

在机器学习中，特征选择是提高模型性能、减少计算复杂度和避免过拟合的关键步骤。而选择合适的特征选择方法，可以大大提升模型的准确性和训练效率。常见的特征选择方法有很多，这里介绍两种方法 前向特征选择 和 递归特征消除（RFE）。

前向特征选择和RFE的主要区别就在于它们如何进行特征排名和模型训练：

前向特征选择会固定特征排名：在前向特征选择中，特征是按照某种标准进行预排序的。每次添加一个特征（排名最高），模型训练一次，并评估该特征对模型性能的影响。每个特征的排名是基于初始的预排序结果确定的，所以在整个过程中特征的排名不会动态变化。
递归特征消除（RFE）是动态特征排名：与前向特征选择不同，RFE是动态的，每次删除一个特征后（排名最低），都会重新训练模型，并计算剩余特征的相对重要性。每次训练和删除都会影响特征的排名，因此每次训练后特征排名会发生变化。这使得RFE在筛选特征时的顺序是动态变化的，因此最后的特征选择结果会受到每次模型训练的影响，RFE也可以看作是后向特征筛选的一种实现形式。

实际上，前向特征选择和递归特征消除（RFE）都与 特征排名 密切相关。无论是通过逐步添加特征，还是通过递归删除不重要的特征，它们的选择过程都依赖于特征的重要性排序。因此，特征的排名直接决定了哪些特征被选中，哪些特征被剔除。如果特征排名发生变化，最终的特征选择结果也会发生显著变化。特征排名的不同将会直接影响模型中保留的特征，进而影响模型的表现。

为了深入理解这种影响，本文将利用 XGBoost模型探讨不同评估指标下特征排名对特征筛选的影响。

2025/6/9
分类于大模型
需要 10 分钟阅读时间

RAG 最常见的5类错误

原文地址：https://www.pinecone.io/learn/most-frequent-five-errors-in-rag

2025/6/9
分类于机器学习
需要 15 分钟阅读时间

逻辑回归 vs XGBoost

原文地址：https://mp.weixin.qq.com/s/uEMQXYs27MyZsN6-82-ccA

逻辑回归（Logistic Regression）和 XGBoost（eXtreme Gradient Boosting）是分类任务中广泛使用的两种机器学习模型，它们代表了机器学习中两种典型的思想：

逻辑回归：简洁的线性模型，适合解释性强、计算开销小的场景；
XGBoost：复杂的集成模型，强调预测精度和模型能力，适合高维非线性任务。

我们将从模型结构、数学推导、损失函数、优化方法、泛化能力等等介绍。

2025/6/9
分类于数据库
需要 2 分钟阅读时间

Python安装Confluent Kafka库

参考文档：

1. Pip 安装

pip install confluent-kafka==1.9.2

注意

建议安装 confluent-kafka 1.9.2 版本，其他版本可能回出现公网发送消息报 SSL_HANDSHAKE 错误。此外，Centos 服务安装 confluent-kafka 更高版本时编译报错，无法正确安装。

2. Conda 安装

如果使用 pip 无法正确安装的情况下，可以试试 conda 安装，且该方式支持更高版本。

conda install conda-forge::python-confluent-kafka

2025/6/9
分类于金融风控
需要 2 分钟阅读时间

信贷额度对风险的因果推断研究

原文地址：https://mp.weixin.qq.com/s/xL8j3z6QIdjQwMTW4UhibA

在信贷领域的因果推断研究中，传统方法多聚焦于二元处理变量（如是否发放营销优惠券）的因果效应估计。然而，当涉及贷款额度、利率等连续型处理变量时，传统二元处理变量的因果推断框架不再适用，需采用适用于连续处理变量的分析方法。

本文聚焦于贷款额度这一连续型处理变量的因果推断问题，采用公开的lendingclub的贷款数据集，结合Imbens《 The propensity score with continuous treatments》这篇文章中的广义倾向得分方法，对连续性处理变量的因果效应进行分析。

2025/6/7
分类于机器学习
需要 20 分钟阅读时间

XGBoost中基于相关系数剔除多重共线性与穷举法进行特征选择

原文地址：https://mp.weixin.qq.com/s/pP2zTIyOcD8iNa06sQSYXQ

2025/6/6
分类于软件工具
需要 2 分钟阅读时间

Mac常用软件合集

本篇文章主要列举一些 Mac 系统上常用软件的合集。

2025/6/6
分类于软件工具
需要 2 分钟阅读时间

Windows常用软件合集

本篇文章主要列举一些 Windows 系统上常用软件的合集。