智能语音¶

2025/6/1
分类于智能语音
需要 10 分钟阅读时间

FunASR实时语音识别接口

原文地址：

https://blog.lukeewin.top/archives/centos-streaming-asr

https://www.cnblogs.com/fengmian13wl/p/18120250

1. 安装Docker

这里使用阿里官方打包好的docker镜像，所以我们先需要安装docker，如果你不想要使用docker方式安装，你也可以自己源码编译安装，不过推荐在Ubuntu系统中源码编译安装，如果你使用CentOS进行源码编译安装，有可能会编译失败。

yum -y install gcc g++ yum-utils
# 配置阿里云的 Docker Hub
yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
# 安装 Docker CE
yum -y install docker-ce docker-ce-cli containerd.io 
# 启动 Docker
systemctl start docker
# 设置开机自启
systemctl enable docker
# 查看 Docker 运行状态
systemctl status docker

2025/4/15
分类于智能语音
需要 2 分钟阅读时间

UniASR模型微调

https://modelscope.cn/models/iic/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-online/summary

8k

https://www.bilibili.com/video/BV18td6YGEje

注意

UniASR 已经停止更新维护，但

2024/7/25
分类于智能语音
需要 2 分钟阅读时间

早期媒体检测

1. 背景

在语音呼叫场景中，经常会遇到拨通电话后听到是“空号”、“停机”、“关机”、“通话中” 等语音播报，这在人工呼叫的场景中还可以及时手动挂断，并不会造成太大的损失。但在 AI 外呼机器人场景中，机器人如果无法正确且高效得提前识别到通话状态，那就必须无效等待 60 秒（运营商端限制）。这显然是一个非常值得优化的问题，如果我们能将 60 秒的播报优化到 10 秒，成本和效率都能有 80%+ 的优化。

早期媒体检测便是解决此类问题一种技术手段，通过音频检测、NLU 意图识别等，提前识别到号码的无效状态，及时切断呼叫流程，节省相应的资源出来。