跳转至

模型仓库

FunASR开源了大量在工业数据上预训练模型,您可以在模型许可协议下自由使用、复制、修改和分享 FunASR 模型,下面列举代表性的模型。

🤗 表示Huggingface模型仓库,🍀表示OpenAI模型仓库

1. 语音识别模型

1.1 其他模型

模型 任务详情 训练数据 参数量
SenseVoiceSmall 🤗 多种语音理解能力,涵盖了自动语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED) 400000小时,中文 330M
Whisper-large-v3 🍀 语音识别,带时间戳输出,非实时 多语言 1550 M
Qwen-Audio 🤗 音频文本多模态大模型(预训练) 多语言 8B
Qwen-Audio-Chat 🤗 音频文本多模态大模型(chat版本) 多语言 8B
Emotion2vec+large 🤗 情感识别模型 40000小时,4种情感类别 300M

1.2 Paraformer 模型

模型名字 任务详情 训练数据 参数量 词典大小 是否实时
SeACoParaformer-zh 带热词功能的语音识别,带时间戳输出 60000小时,中文 220M 非实时
Paraformer-zh   🤗 能够处理任意长度的输入wav文件 60000小时,中文 220M 8404 非实时
Paraformer-large-Spk 分角色语音识别,在长音频功能的基础上添加说话人识别功能,带时间戳输出 60000小时,中文 220M 非实时
Paraformer-large 输入 wav 文件持续时间不超过20秒 中文和英文,阿里巴巴语音数据(60000小时) 220M 8404 非实时
Paraformer-zh-streaming 🤗 处理流式输入 60000小时,中文 220M 8404 实时
Paraformer-zh-Streaming-Small 处理流式输入 60000小时,中文 220M 8404 实时
Paraformer-large-en 长音频版本 🤗 能够处理任意长度的输入wav文件 英文,阿里巴巴语音数据(50000小时) 220M 10020 非实时
Paraformer-large 热词 基于激励增强的热词定制支持,可以提高热词的召回率和准确率,输入wav文件持续时间不超过20秒 中文和英文,阿里巴巴语音数据(60000小时) 220M 8404 非实时
Paraformer 输入 wav 文件持续时间不超过20秒 中文和英文,阿里巴巴语音数据(50000小时) 68M 8358 离线
Paraformer-tiny 轻量级Paraformer模型,支持普通话命令词识别 中文,阿里巴巴语音数据 (200hours) 5.2M 544 非实时
Paraformer-aishell 学术模型 中文,AISHELL (178hours) 43M 4234 非实时
ParaformerBert-aishell 学术模型 中文,AISHELL (178hours) 43M 4234 非实时
Paraformer-aishell2 学术模型 中文,AISHELL-2 (1000hours) 64M 5212 非实时
ParaformerBert-aishell2 学术模型 中文,AISHELL-2 (1000hours) 64M 5212 非实时

1.3 UniASR 模型

模型名字 训练数据 词典量 参数量 是否实时 备注
UniASR 中文和英文,阿里巴巴语音数据 (60000 小时) 8358 100M 实时 流式离线一体化模型
UniASR-large 中文和英文,阿里巴巴语音数据 (60000 小时) 8358 220M 非实时 流式离线一体化模型
UniASR English 英文,阿里巴巴语音数据 (10000 小时) 1080 95M 实时 流式离线一体化模型
UniASR Russian 俄语, 阿里巴巴语音数据 (5000 小时) 1664 95M 实时 流式离线一体化模型
UniASR Japanese 日语,阿里巴巴语音数据 (5000 小时) 5977 95M 实时 流式离线一体化模型
UniASR Korean 韩语,阿里巴巴语音数据 (2000 小时) 6400 95M 实时 流式离线一体化模型
UniASR Cantonese (CHS) 粤语(简体中文),阿里巴巴语音数据 (5000 小时) 1468 95M 实时 流式离线一体化模型
UniASR Indonesian 印尼语,阿里巴巴语音数据 (1000 小时) 1067 95M 实时 流式离线一体化模型
UniASR Vietnamese 越南语 阿里巴巴语音数据 (1000 小时) 1001 95M 实时
UniASR Spanish 西班牙语,阿里巴巴语音数据 (1000 小时) 3445 95M 实时 流式离线一体化模型
UniASR Portuguese 葡萄牙语,阿里巴巴语音数据 (1000 小时) 1617 95M 实时 流式离线一体化模型
UniASR French 法语,阿里巴巴语音数据 (1000 小时) 3472 95M 实时 流式离线一体化模型
UniASR German 德语,阿里巴巴语音数据 (1000 小时) 3690 95M 实时 流式离线一体化模型
UniASR Persian 波斯语,阿里巴巴语音数据 (1000 小时) 1257 95M 实时 流式离线一体化模型
UniASR Burmese 缅甸语,阿里巴巴语音数据 (1000 小时) 696 95M 实时 流式离线一体化模型
UniASR Hebrew 希伯来语,阿里巴巴语音数据 (1000 小时) 1085 95M 实时 流式离线一体化模型
UniASR Urdu 乌尔都语,阿里巴巴语音数据 (1000 小时) 877 95M 实时 流式离线一体化模型
UniASR Turkish 土耳其语,阿里巴巴语音数据 (1000 小时) 1582 95M 实时 流式离线一体化模型

1.4 Conformer 模型

模型名字 训练数据 参数量 词典大小 是否实时 备注
Conformer-en 🤗 50000小时,英文 220M 4199 非实时
Conformer 中文,AISHELL (178hours) 44M 4234 非实时 输入wav文件持续时间不超过20秒
Conformer 中文,AISHELL-2 (1000hours) 44M 5212 非实时 输入wav文件持续时间不超过20秒

2. 多说话人语音识别模型

模型名字 训练数据 词典量 参数量 非实时/实时 备注
MFCCA 中文, AliMeeting、AISHELL-4、Simudata (917hours) 4950 45M 非实时 输入音频的持续时间不超过20秒,输入音频的通道数不超过8通道。

3. 语音端点检测模型

模型名字 训练数据 模型参数 采样率 实时
FSMN-VAD 🤗 阿里巴巴语音数据 (5000hours) 0.4M 16000 实时
FSMN-VAD 阿里巴巴语音数据 (5000hours) 0.4M 8000 实时

4. 标点恢复模型

模型 任务详情 训练数据 模型参数 词典大小 非实时/实时
CT-Transformer-Large 支持中英文标点大模型 中文和英文,Alibaba Text Data(100M) 1.1G 471067 非实时
CT-Transformer 支持中英文标点 中文和英文,Alibaba Text Data(70M) 291M 272727 非实时
CT-Transformer-Realtime VAD点实时标点 中文和英文,Alibaba Text Data(70M) 288M 272727 实时
ct-punc 🤗 标点恢复 100M,中文与英文 290M

5. 语音模型

模型 训练数据 参数量 词典大小
Transformer 阿里巴巴语音数据 57M 8404

6. 说话人确认模型

模型 训练数据 参数量
Xvector 中文,CNCeleb (1,200 小时),3465 说话人 17.5M
Xvector 英文,CallHome (60 小时),6135 说话人 61M
cam++
🤗
5000小时 7.2M

7. 说话人日志模型

模型 训练数据 参数量
SOND 中文,AliMeeting (120 小时) 40.5M
SOND 英文,CallHome (60 小时) 12M

8. 时间戳预测模型

模型 训练数据 参数量
TP-Aligner 中文,阿里巴巴语音数据 (50000hours) 37.8M
fa-zh
🤗
50000 小时,中文 38M

9. 逆文本正则化

模型名字 语言 模型参数 备注
English EN 1.54M ITN,语音识别文本后处理
Russian RU 17.79M ITN,语音识别文本后处理
Japanese JA 6.8M ITN,语音识别文本后处理
Korean KO 1.28M ITN,语音识别文本后处理
Indonesian ID 2.06M ITN,语音识别文本后处理
Vietnamese VI 0.92M ITN,语音识别文本后处理
Tagalog TL 0.65M ITN,语音识别文本后处理
Spanish ES 1.32M ITN,语音识别文本后处理
Portuguese PT 1.28M ITN,语音识别文本后处理
French FR 4.39M ITN,语音识别文本后处理
German GE 3.95M ITN,语音识别文本后处理