跳转至

我的博客

深入解析金融风控催收评分卡

原文地址: https://mp.weixin.qq.com/s/CuJA0zfdAY4MYT48kTrj6w

1. 催收背景

近年,黑猫投诉上关于举报违法催收的信息越来越多。截止目前已经有 93 万多条投诉记录,并非每次举报都一定会被黑猫投诉接受,真实催收投诉越大于 93 万条。

国家一直在加强金融监管,打击非法催收行为力度越来越大,以保护消费者权益和维护金融市场秩序。以下是一些相关的信息和措施:

基于 DeepSeek-R1 和 Ollama 搭建本地应用

原文地址: https://mp.weixin.qq.com/s/VpNqMpZ1K9fAAOyr3dmWmw

本教程将详细介绍如何利用 DeepSeek R1 和 Ollama 构建本地化的 RAG(检索增强生成)应用。我们将通过实例演示完整的实现流程,包括文档处理、向量存储、模型调用等关键步骤。

本教程选用 DeepSeek-R1 1.5B 作为基础语言模型。考虑到不同模型具有各自的特点和性能表现,读者可以根据实际需求选择其他合适的模型来实现 RAG 系统。

代码示例

本文档包含核心代码片段和详细解释。完整代码可见 notebook

DeepSeek R1 Zero 复现教程

原文地址: https://mp.weixin.qq.com/s/o2l8XRryS5PWRriGQZytWQ

各位同学好,我是来自 Unlock-DeepSeek 开源项目团队的骆师傅。先说结论,我们(Datawhale X 似然实验室)使用 3 张 80G 的 A800计算卡训练了 20 小时,做出了可能是国内首批 DeepSeek R1 Zero 的中文复现版本,我们把它叫做 Datawhale-R1,用于 R1 Zero 复现教学。*

alt text

按照 5.5 ~ 7.0 元每小时的价格计算,3 张 A800 花费最低为 3 x 5.5 x 20 = 330 元,预计花费接近 420 元,而 TinyZero 项目用了 4 张 A800 训练了 8 小时,预计花费为:224 元,这中间的差异可能是由于硬件性能瓶颈和框架差异带来的(我们用的是 Huggingface TRL,TinyZero 使用的是 veRL)。所以建议大家如果真的要复现,请使用 TinyZero 项目,我们出于教育目的使用 TRL 为大家报告这个结果。

另外,不是所有人都能随时随地调用 3 张 A800 的,我们正在努力减小硬件资源要求,让复现工作尽可能平民化(比如在 4090 上跑)。在这里特别感谢:似然实验室,提供本次复现的计算资源,并与 Datawhale 团队合作贡献了本教程。

回到正题,首先回答一个关键问题:为什么这个方案更贵,而我们却选择了它?答案就是:它更符合教育目的,截止本文发布,大部分同学没有足够的资源来亲手体验复现流程,但是我们希望大家能更清楚的看到,复现 R1 Zero 的过程中都发生了什么,真正对复现原理有个大致把握,就算做“云玩家”也要学到知识,看完骆师傅做一遍就好像自己也做了一遍。

本方案在 mini-r1 的基础上改进而来。

DeepSeek V1-V3 核心技术点简明解析

原文地址: https://mp.weixin.qq.com/s/PWcDZCluDmc7vRBk7ZN5RA?poc_token=HGlhp2ejfYvO0EmplK2g4MC5y2urO6-treKExOfN

最近,DeepSeek 在国际上很火,一方面其效果比肩非开源模型 ChatGPT,另一方面其运行成本很低。可以说,DeepSeek 是目前为止最先进的大模型之一。

今天这篇文章,就带大家梳理一下从 2024 年至今 DeepSeek 发布的 V1~V3 版本的核心技术点,看看 DeepSeek 采用了哪些技术构建了最先进的大模型,每一次的升级基本都伴随着训练数据的优化、模型结构的升级、优化方式的更新。

为了方便大家阅读,本文会用比较简洁的语言进行主要技术的介绍,一些其他相关的技术细节深度解析,后续也会陆续进行更新。

早期媒体检测

1. 背景

在语音呼叫场景中,经常会遇到拨通电话后听到是“空号”、“停机”、“关机”、“通话中” 等语音播报,这在人工呼叫的场景中还可以及时手动挂断,并不会造成太大的损失。但在 AI 外呼机器人场景中,机器人如果无法正确且高效得提前识别到通话状态,那就必须无效等待 60 秒(运营商端限制)。这显然是一个非常值得优化的问题,如果我们能将 60 秒的播报优化到 10 秒,成本和效率都能有 80%+ 的优化。

早期媒体检测便是解决此类问题一种技术手段,通过音频检测、NLU 意图识别等,提前识别到号码的无效状态,及时切断呼叫流程,节省相应的资源出来。

Docker拉取镜像证书过期错误

参考文档:https://blog.csdn.net/qq_44895681/article/details/120524753

在使用 docker pull 命令拉取镜像时,出现证书过期错误:

错误信息
docker: Get https://registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12: x509: certificate has expired or is not yet valid.

这种情况一般时证书问题或者系统时间问题导致的,可以先执行 date 看一下系统时间是否正确,如果服务器系 统时间跟现实实际时间对不上的话,一般就是系统时间问题,同步时间即可。

1. 修正系统时间

安装 ntpdate 工具同步时间:

yum install ntpdate -y
ntpdate cn.pool.ntp.org

使用 date 再次查看下时间已经修正后,执行以下命令时便能正常获取镜像了:

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

2. 修正证书时间

如果是证书问题,则需要在 /etc/docker/daemon.json 文件中添加以下内容:

"registry-mirrors": [
  "https://docker.mirrors.ustc.edu.cn"
]

接下来更新 Docker 配置并重启服务:

systemctl daemon-reload
systemctl restart docker

Hive Multi Insert

1. 分区表

1
2
3
4
5
6
7
CREATE TABLE mydb.yumm_multi_insert_demo
(
    id BIGINT,
  name STRING
)
PARTITIONED BY (batchdate STRING)
;

2. Multi Insert插入数据

1
2
3
4
5
6
7
FROM (
    SELECT 1 AS id, 'n1' AS name
  UNION ALL
  SELECT 2 AS id, 'n2' as name
)
INSERT INTO TABLE haier_afterloan_dev.yumm_multi_insert_demo PARTITION(batchdate='2025-01-01') SELECT * WHERE id = 1
INSERT INTO TABLE haier_afterloan_dev.yumm_multi_insert_demo PARTITION(batchdate='2025-01-02') SELECT * WHERE id = 2