快速参考 #
服务供应商列表 #
| ASR | NLP | TTS | |
|---|---|---|---|
| 1 | 思必驰全双工 WebSocket 接口 | 思必驰智能会话 HTTP 接口 | 思必驰 TTS 实时音频和音素 HTTP 流接口 |
| 2 | 科大讯飞实时语音转写 | 商汤研究院赵剑桥/苏银沛自研 NLP | 思必驰 TTS 音频和音素资源 URL 单次返回接口 |
| 3 | 标贝科技实时长语音识别 WebSocket 接口 | 追一科技 YiBot 聊天机器人 | 商汤研究院李宝祥/任海海自研 TTS |
| 4 | 商汤通用智能李宝祥/魏云申自研 ASR(前代,已废弃) | 中国工商银行小融 NLP 大脑 | 微软 Azure 认知服务的语音服务 TTS REST API |
| 5 | 商汤研究院李宝祥/任海海自研 ASR | OpenAI GPT3 Chat | 微软 Azure 认知服务的语音服务 TTS Go SDK |
| 6 | 商汤研究院李宝祥/任海海自研 非流式 ASR | OpenAI ChatGPT-3.5 Turbo / GPT-4 | 微软 Azure 认知服务的个人语音服务 TTS Go SDK |
| 7 | 微软 Azure 认知服务的语音服务 ASR Go SDK | 商汤日日新商量对话生成 | ElevenLabs 多语言 TTS WebSocket 服务 |
| 8 | 通过累积微软 Azure 认知服务的流式语音服务 Go SDK 实现的非流式 ASR | Starlark 泛型 NLP | MiniMax T2A 流式语音生成服务 |
| 9 | MiniMax 对话生成 Pro | ||
| 10 | 商汤日日新拟人对话生成 |
服务供应商功能性差异 #
ASR #
中控需要达成的目标就是统一接口和解决兼容性的问题,但是由于供应商技术的局限性,不同 ASR 供应商在功能上是存在一定的差异的。具体表现如下:
| 属性 | ASR1 | ASR2 | ASR3 | ASR5 | ASR6 | ASR7 | ASR8 |
|---|---|---|---|---|---|---|---|
| 主动式 EOF | 模拟支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
| 字幕支持 | 支持 | 支持 | 支持 | 支持 | |||
| 中间结果 | 支持 | 支持 | 支持 | 不存在 | 支持 | 支持 |
注意:ASR4 为研究侧中间版本,已经废弃,被 ASR5 和 ASR6 取代。
TTS #
中控需要达成的目标就是统一接口和解决兼容性的问题,但是由于供应商技术的局限性,不同 TTS 供应商在功能上是存在一定的差异的。具体表现如下:
| 属性 | TTS1 | TTS2 | TTS3 | TTS4/TTS5 | TTS6 | TTS7 |
|---|---|---|---|---|---|---|
| 发音人 | 支持思必驰已经购买的发音人 | 支持思必驰已经购买的发音人 | 支持自研已经部署的发音人模型 | 支持微软认知服务 GA 的发音人 | 支持微软认知服务 Personal Voice 发音人 | 支持 ElevenLabs 预制及克隆的发音人 |
| 情感化 | 部分发音人支持 | 部分发音人支持 | Dragon 不支持,Phoenix 支持 | 不支持 | ||
| SSML | 支持,使用思必驰标准 | 支持,使用思必驰标准 | 支持,使用商汤标准 | 支持,使用微软标准 | 支持,使用微软标准 | 部分支持,使用 ElevenLabs 标准 |
| 音频格式 | 支持 pcm 和 mp3 | 支持 pcm, wav 和 mp3 | 支持 pcm, wav 和 mp3 | 支持 pcm 和 mp3 | 支持 pcm 和 mp3 | 支持 pcm 和 mp3 |
| 采样率支持 | 8000, 16000 | 8000, 16000 | 8000, 11025, 16000, 22050, 24000, 32000, 44100, 48000 | 8000, 16000, 22050, 24000, 44100, 48000 | 8000, 16000, 22050, 24000, 44100, 48000 | 16000, 22050, 24000, 44100 |
| 音素支持 | 思必驰音素字符串,用空格间隔 | 思必驰音素 JSON 结构 | 自研音素字符串,用空格间隔 | 不支持 | 不支持 | 不支持 |
| 字幕支持 | 支持 | TTS5 支持 | Dragon 不支持,Phoenix 支持 | 支持 | ||
| 多音字支持 | 支持 | 不支持 | ||||
| 时间戳支持 | 支持 | TTS5 支持 | Dragon 不支持,Phoenix 支持 | 不支持 | ||
| 音量支持 | 支持 | 支持 | 支持 | 支持 | 不支持 | 不支持 |
| 语速支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 不支持 |
| 音调支持 | 支持 | 支持 | 支持 | 支持 | Dragon 不支持,Phoenix 支持 | 不支持 |
TTS 发音人列表 #
下表仅包含常用发音人,完整列表需从具体厂商处获取。
| 服务供应商 | 供应商编号 | 发音人名称 | 发音人 ID | 语言 | 是否默认 |
|---|---|---|---|---|---|
| 思必驰 | TTS1 / TTS2 | 精品男声秋木 | qiumum_0gushi | zh-CN | |
| 精品电台男声考拉 | kaolam_diantai | zh-CN | |||
| 精品四川话女声文卿 | wqingf_csn | zh-CN | |||
| 精品甜美女声小静 | xjingfp | zh-CN | |||
| 精品温柔女声小兰 | gqlanfp | zh-CN | |||
| 精品甜美女声小咪 | xmamif | zh-CN | |||
| 精品可爱男童连连 | lzliafp | zh-CN | |||
| 精品娱播女声麻豆 | madoufp_yubo | zh-CN | |||
| 精品甜美女声婷婷 | xmguof | zh-CN | |||
| 精品客服女声芳芳 | gdfanfp | zh-CN | 是 | ||
| 精品温柔女声麻豆 | madoufp_wenrou | zh-CN | |||
| 精品女声蓝雨 | lanyuf | zh-CN | |||
| 精品女声小浩 | lucyfa | zh-CN | |||
| 精品粤语女声何春 | hchunf_ctn | zh-CN | |||
| 精品男声小军 | xijunma | zh-CN | |||
| 精品甜美女神小玲 | zhilingfp | zh-CN | |||
| 精品女声安宁 | aningfp | zh-CN | |||
| 精品女学生初阳 | cyangfp | zh-CN | |||
| 精品客服女声小美 | juan1f | zh-CN | |||
| 精品粤语女声晓健 | lunaif_ctn | zh-CN | |||
| 精品欢快女神小玲 | zhilingfp_huankuai | zh-CN | |||
| 精品知性女声晶晶 | jjingfp | zh-CN | |||
| 精品山东话女声大瑶 | dayaof_csd | zh-CN | |||
| 精品娱报女声璃璃 | lili1f_yubo | zh-CN | |||
| 精品四川话女声胖胖 | ppangf_csn | zh-CN | |||
| 精品女童贝壳 | xbekef | zh-CN | |||
| 精品上海话女声叶子 | yezi1f_csh | zh-CN | |||
| 商汤自研 | TTS3 | 晓灵 | xiaoling | zh-CN | 是 |
| 晓悦 | xiaoyue | zh-CN | |||
| 晓雨 | xiaoyu | zh-CN | |||
| 晓航 | xiaohang | zh-CN | |||
| 晓涵 | xiaohan | zh-CN | |||
| 晓美 | xiaomei | zh-CN | |||
| 晓可 | xiaoke | zh-CN | |||
| 晓仙 | xiaoxian | zh-CN | |||
| 晓君 | xiaojun | zh-CN | |||
| 晓华 | xiaohua | zh-CN | |||
| 晓明 | xiaoming | zh-CN | |||
| 燕子 | xiaoyan | zh-CN | |||
| 晓芳 | xiaofang | zh-CN | |||
| 晓庄 | xiaozhuang | zh-CN | |||
| 微软 Azure 认知服务 | TTS4/TTS5 | 普通话Xiaochen女生 | zh-CN-XiaochenNeural | zh-CN | 是 |
| 普通话Xiaohan女生 | zh-CN-XiaohanNeural | zh-CN | |||
| 普通话Xiaomo女生 | zh-CN-XiaomoNeural | zh-CN | |||
| 普通话Xiaoqiu女生 | zh-CN-XiaoqiuNeural | zh-CN | |||
| 普通话Xiaorui女生 | zh-CN-XiaoruiNeural | zh-CN | |||
| 普通话Xiaoshuang女生 | zh-CN-XiaoshuangNeural | zh-CN | |||
| 普通话Xiaoxiao女生 | zh-CN-XiaoxiaoNeural | zh-CN | |||
| 普通话Xiaoxuan女生 | zh-CN-XiaoxuanNeural | zh-CN | |||
| 普通话Xiaoyan女生 | zh-CN-XiaoyanNeural | zh-CN | |||
| 普通话Xiaoyou女生 | zh-CN-XiaoyouNeural | zh-CN | |||
| 普通话Yunxi男生 | zh-CN-YunxiNeural | zh-CN | |||
| 普通话Yunyang男生 | zh-CN-YunyangNeural | zh-CN | |||
| 普通话Yunye男生 | zh-CN-YunyeNeural | zh-CN | |||
| 普通话Xiaoyou女生 | zh-CN-XiaoyouNeural | zh-CN | |||
| 普通话Yunxi男生 | zh-CN-YunxiNeural | zh-CN | |||
| 上海话Xiaotong女生 | wuu-CN-XiaotongNeural | wuu-CN | |||
| 上海话Yunzhe男生 | wuu-CN-YunzheNeural | wuu-CN | |||
| 日语Nanami女生 | ja-JP-YunzheNeural | ja-JP | |||
| 日语Keita男生 | ja-JP-KeitaNeural | ja-JP | |||
| 韩语SunHi女生 | ko-KR-SunHiNeural | ko-KR | |||
| 韩语InJoon男生 | ko-KR-InJoonNeural | ko-KR | |||
| 泰语Achara女生 | th-TH-AcharaNeural | th-TH | |||
| 泰语Premwadee女生 | th-TH-PremwadeeNeural | th-TH | |||
| 泰语Niwat男生 | th-TH-NiwatNeural | th-TH |
TTS 发音人参考 #
完整列表 #
TTS SSML 语法参考 #
字幕换行标点符号范围 #
用于切割字幕的标点符号包括中日韩及拉丁语系常用标点
| 符号 | Unicode编码 |
|---|---|
| ! | U+0021 |
| " | U+0022 |
| ' | U+0027 |
| ( | U+0028 |
| ) | U+0029 |
| , | U+002C |
| . | U+002E |
| : | U+003A |
| ; | U+003B |
| ? | U+003F |
| [ | U+005B |
| \ | U+005C |
| ] | U+005D |
| ^ | U+005E |
| ` | U+0060 |
| { | U+007B |
| | | U+007C |
| } | U+007D |
| ~ | U+007E |
| U+00A0 | |
| ¡ | U+00A1 |
| ¤ | U+00A4 |
| ¦ | U+00A6 |
| § | U+00A7 |
| ¨ | U+00A8 |
| « | U+00AB |
| ´ | U+00B4 |
| ¶ | U+00B6 |
| ¸ | U+00B8 |
| » | U+00BB |
| ¿ | U+00BF |
| ‐ | U+2010 |
| — | U+2014 |
| ‘ | U+2018 |
| ’ | U+2019 |
| “ | U+201C |
| ” | U+201D |
| ‥ | U+2025 |
| … | U+2026 |
| ⸘ | U+2E18 |
| ⸙ | U+2E19 |
| ⸚ | U+2E1A |
| ⸛ | U+2E1B |
| ⸞ | U+2E1E |
| ⸟ | U+2E1F |
| ⸮ | U+2E2E |
| ⸯ | U+2E2F |
| ⸰ | U+2E30 |
| ⸱ | U+2E31 |
| ⹁ | U+2E41 |
| ⹂ | U+2E42 |
| ⹃ | U+2E43 |
| ⹄ | U+2E44 |
| 、 | U+3001 |
| 。 | U+3002 |
| 〃 | U+3003 |
| 〈 | U+3008 |
| 〉 | U+3009 |
| 《 | U+300A |
| 》 | U+300B |
| 「 | U+300C |
| 」 | U+300D |
| 『 | U+300E |
| 』 | U+300F |
| 【 | U+3010 |
| 】 | U+3011 |
| 〔 | U+3014 |
| 〕 | U+3015 |
| 〖 | U+3016 |
| 〗 | U+3017 |
| 〘 | U+3018 |
| 〙 | U+3019 |
| 〚 | U+301A |
| 〛 | U+301B |
| 〜 | U+301C |
| 〝 | U+301D |
| 〞 | U+301E |
| 〟 | U+301F |
| ︐ | U+FE10 |
| ︑ | U+FE11 |
| ︒ | U+FE12 |
| ︓ | U+FE13 |
| ︔ | U+FE14 |
| ︕ | U+FE15 |
| ︖ | U+FE16 |
| ︗ | U+FE17 |
| ︘ | U+FE18 |
| ︙ | U+FE19 |
| ﹐ | U+FE50 |
| ﹑ | U+FE51 |
| ﹒ | U+FE52 |
| ﹔ | U+FE54 |
| ﹕ | U+FE55 |
| ﹖ | U+FE56 |
| ﹗ | U+FE57 |
| ﹙ | U+FE59 |
| ﹚ | U+FE5A |
| ﹛ | U+FE5B |
| ﹜ | U+FE5C |
| ﹝ | U+FE5D |
| ﹞ | U+FE5E |
| ﹡ | U+FE61 |
| ﹨ | U+FE68 |
| ! | U+FF01 |
| ( | U+FF08 |
| ) | U+FF09 |
| , | U+FF0C |
| : | U+FF1A |
| ; | U+FF1B |
| ? | U+FF1F |
| ~ | U+FF5E |
| 。 | U+FF61 |
| 「 | U+FF62 |
| 」 | U+FF63 |
| 、 | U+FF64 |
Special Case #
一部分非标点符号的写法不会被切割,如下:
- 带有小数点的数字,如 1.2
- 带有"’“缩写的英文,如 I’m
- 带有”:“的时间,如 12:00
- 带有”.“的英文缩写,如 U.S.A.
以上特例的判断标准为:符号前后都是英文或数字,且符号前后都不是空格。