模型仓库¶
FunASR开源了大量在工业数据上预训练模型,您可以在模型许可协议下自由使用、复制、修改和分享 FunASR 模型,下面列举代表性的模型。
🤗 表示Huggingface模型仓库,🍀表示OpenAI模型仓库
1. 语音识别模型¶
1.1 其他模型¶
模型 | 任务详情 | 训练数据 | 参数量 |
---|---|---|---|
SenseVoiceSmall 🤗 | 多种语音理解能力,涵盖了自动语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED) | 400000小时,中文 | 330M |
Whisper-large-v3 🍀 | 语音识别,带时间戳输出,非实时 | 多语言 | 1550 M |
Qwen-Audio 🤗 | 音频文本多模态大模型(预训练) | 多语言 | 8B |
Qwen-Audio-Chat 🤗 | 音频文本多模态大模型(chat版本) | 多语言 | 8B |
Emotion2vec+large 🤗 | 情感识别模型 | 40000小时,4种情感类别 | 300M |
1.2 Paraformer 模型¶
模型名字 | 任务详情 | 训练数据 | 参数量 | 词典大小 | 是否实时 |
---|---|---|---|---|---|
SeACoParaformer-zh | 带热词功能的语音识别,带时间戳输出 | 60000小时,中文 | 220M | 非实时 | |
Paraformer-zh 🤗 | 能够处理任意长度的输入wav文件 | 60000小时,中文 | 220M | 8404 | 非实时 |
Paraformer-large-Spk | 分角色语音识别,在长音频功能的基础上添加说话人识别功能,带时间戳输出 | 60000小时,中文 | 220M | 非实时 | |
Paraformer-large | 输入 wav 文件持续时间不超过20秒 | 中文和英文,阿里巴巴语音数据(60000小时) | 220M | 8404 | 非实时 |
Paraformer-zh-streaming 🤗 | 处理流式输入 | 60000小时,中文 | 220M | 8404 | 实时 |
Paraformer-zh-Streaming-Small | 处理流式输入 | 60000小时,中文 | 220M | 8404 | 实时 |
Paraformer-large-en 长音频版本 🤗 | 能够处理任意长度的输入wav文件 | 英文,阿里巴巴语音数据(50000小时) | 220M | 10020 | 非实时 |
Paraformer-large 热词 | 基于激励增强的热词定制支持,可以提高热词的召回率和准确率,输入wav文件持续时间不超过20秒 | 中文和英文,阿里巴巴语音数据(60000小时) | 220M | 8404 | 非实时 |
Paraformer | 输入 wav 文件持续时间不超过20秒 | 中文和英文,阿里巴巴语音数据(50000小时) | 68M | 8358 | 离线 |
Paraformer-tiny | 轻量级Paraformer模型,支持普通话命令词识别 | 中文,阿里巴巴语音数据 (200hours) | 5.2M | 544 | 非实时 |
Paraformer-aishell | 学术模型 | 中文,AISHELL (178hours) | 43M | 4234 | 非实时 |
ParaformerBert-aishell | 学术模型 | 中文,AISHELL (178hours) | 43M | 4234 | 非实时 |
Paraformer-aishell2 | 学术模型 | 中文,AISHELL-2 (1000hours) | 64M | 5212 | 非实时 |
ParaformerBert-aishell2 | 学术模型 | 中文,AISHELL-2 (1000hours) | 64M | 5212 | 非实时 |
1.3 UniASR 模型¶
模型名字 | 训练数据 | 词典量 | 参数量 | 是否实时 | 备注 |
---|---|---|---|---|---|
UniASR | 中文和英文,阿里巴巴语音数据 (60000 小时) | 8358 | 100M | 实时 | 流式离线一体化模型 |
UniASR-large | 中文和英文,阿里巴巴语音数据 (60000 小时) | 8358 | 220M | 非实时 | 流式离线一体化模型 |
UniASR English | 英文,阿里巴巴语音数据 (10000 小时) | 1080 | 95M | 实时 | 流式离线一体化模型 |
UniASR Russian | 俄语, 阿里巴巴语音数据 (5000 小时) | 1664 | 95M | 实时 | 流式离线一体化模型 |
UniASR Japanese | 日语,阿里巴巴语音数据 (5000 小时) | 5977 | 95M | 实时 | 流式离线一体化模型 |
UniASR Korean | 韩语,阿里巴巴语音数据 (2000 小时) | 6400 | 95M | 实时 | 流式离线一体化模型 |
UniASR Cantonese (CHS) | 粤语(简体中文),阿里巴巴语音数据 (5000 小时) | 1468 | 95M | 实时 | 流式离线一体化模型 |
UniASR Indonesian | 印尼语,阿里巴巴语音数据 (1000 小时) | 1067 | 95M | 实时 | 流式离线一体化模型 |
UniASR Vietnamese | 越南语 | 阿里巴巴语音数据 (1000 小时) | 1001 | 95M | 实时 |
UniASR Spanish | 西班牙语,阿里巴巴语音数据 (1000 小时) | 3445 | 95M | 实时 | 流式离线一体化模型 |
UniASR Portuguese | 葡萄牙语,阿里巴巴语音数据 (1000 小时) | 1617 | 95M | 实时 | 流式离线一体化模型 |
UniASR French | 法语,阿里巴巴语音数据 (1000 小时) | 3472 | 95M | 实时 | 流式离线一体化模型 |
UniASR German | 德语,阿里巴巴语音数据 (1000 小时) | 3690 | 95M | 实时 | 流式离线一体化模型 |
UniASR Persian | 波斯语,阿里巴巴语音数据 (1000 小时) | 1257 | 95M | 实时 | 流式离线一体化模型 |
UniASR Burmese | 缅甸语,阿里巴巴语音数据 (1000 小时) | 696 | 95M | 实时 | 流式离线一体化模型 |
UniASR Hebrew | 希伯来语,阿里巴巴语音数据 (1000 小时) | 1085 | 95M | 实时 | 流式离线一体化模型 |
UniASR Urdu | 乌尔都语,阿里巴巴语音数据 (1000 小时) | 877 | 95M | 实时 | 流式离线一体化模型 |
UniASR Turkish | 土耳其语,阿里巴巴语音数据 (1000 小时) | 1582 | 95M | 实时 | 流式离线一体化模型 |
1.4 Conformer 模型¶
模型名字 | 训练数据 | 参数量 | 词典大小 | 是否实时 | 备注 |
---|---|---|---|---|---|
Conformer-en 🤗 | 50000小时,英文 | 220M | 4199 | 非实时 | |
Conformer | 中文,AISHELL (178hours) | 44M | 4234 | 非实时 | 输入wav文件持续时间不超过20秒 |
Conformer | 中文,AISHELL-2 (1000hours) | 44M | 5212 | 非实时 | 输入wav文件持续时间不超过20秒 |
2. 多说话人语音识别模型¶
模型名字 | 训练数据 | 词典量 | 参数量 | 非实时/实时 | 备注 |
---|---|---|---|---|---|
MFCCA | 中文, AliMeeting、AISHELL-4、Simudata (917hours) | 4950 | 45M | 非实时 | 输入音频的持续时间不超过20秒,输入音频的通道数不超过8通道。 |
3. 语音端点检测模型¶
模型名字 | 训练数据 | 模型参数 | 采样率 | 实时 |
---|---|---|---|---|
FSMN-VAD 🤗 | 阿里巴巴语音数据 (5000hours) | 0.4M | 16000 | 实时 |
FSMN-VAD | 阿里巴巴语音数据 (5000hours) | 0.4M | 8000 | 实时 |
4. 标点恢复模型¶
模型 | 任务详情 | 训练数据 | 模型参数 | 词典大小 | 非实时/实时 |
---|---|---|---|---|---|
CT-Transformer-Large | 支持中英文标点大模型 | 中文和英文,Alibaba Text Data(100M) | 1.1G | 471067 | 非实时 |
CT-Transformer | 支持中英文标点 | 中文和英文,Alibaba Text Data(70M) | 291M | 272727 | 非实时 |
CT-Transformer-Realtime | VAD点实时标点 | 中文和英文,Alibaba Text Data(70M) | 288M | 272727 | 实时 |
ct-punc 🤗 | 标点恢复 | 100M,中文与英文 | 290M |
5. 语音模型¶
模型 | 训练数据 | 参数量 | 词典大小 |
---|---|---|---|
Transformer | 阿里巴巴语音数据 | 57M | 8404 |
6. 说话人确认模型¶
模型 | 训练数据 | 参数量 |
---|---|---|
Xvector | 中文,CNCeleb (1,200 小时),3465 说话人 | 17.5M |
Xvector | 英文,CallHome (60 小时),6135 说话人 | 61M |
cam++ ⭐ 🤗 |
5000小时 | 7.2M |
7. 说话人日志模型¶
模型 | 训练数据 | 参数量 |
---|---|---|
SOND | 中文,AliMeeting (120 小时) | 40.5M |
SOND | 英文,CallHome (60 小时) | 12M |
8. 时间戳预测模型¶
模型 | 训练数据 | 参数量 |
---|---|---|
TP-Aligner | 中文,阿里巴巴语音数据 (50000hours) | 37.8M |
fa-zh ⭐ 🤗 |
50000 小时,中文 | 38M |
9. 逆文本正则化¶
模型名字 | 语言 | 模型参数 | 备注 |
---|---|---|---|
English | EN | 1.54M | ITN,语音识别文本后处理 |
Russian | RU | 17.79M | ITN,语音识别文本后处理 |
Japanese | JA | 6.8M | ITN,语音识别文本后处理 |
Korean | KO | 1.28M | ITN,语音识别文本后处理 |
Indonesian | ID | 2.06M | ITN,语音识别文本后处理 |
Vietnamese | VI | 0.92M | ITN,语音识别文本后处理 |
Tagalog | TL | 0.65M | ITN,语音识别文本后处理 |
Spanish | ES | 1.32M | ITN,语音识别文本后处理 |
Portuguese | PT | 1.28M | ITN,语音识别文本后处理 |
French | FR | 4.39M | ITN,语音识别文本后处理 |
German | GE | 3.95M | ITN,语音识别文本后处理 |