快速参考

快速参考 #

服务供应商列表 #

ASRNLPTTS
1思必驰全双工 WebSocket 接口思必驰智能会话 HTTP 接口思必驰 TTS 实时音频和音素 HTTP 流接口
2科大讯飞实时语音转写商汤研究院赵剑桥/苏银沛自研 NLP思必驰 TTS 音频和音素资源 URL 单次返回接口
3标贝科技实时长语音识别 WebSocket 接口追一科技 YiBot 聊天机器人商汤研究院李宝祥/任海海自研 TTS
4商汤通用智能李宝祥/魏云申自研 ASR(前代,已废弃)中国工商银行小融 NLP 大脑微软 Azure 认知服务的语音服务 TTS REST API
5商汤研究院李宝祥/任海海自研 ASROpenAI GPT3 Chat微软 Azure 认知服务的语音服务 TTS Go SDK
6商汤研究院李宝祥/任海海自研 非流式 ASROpenAI ChatGPT-3.5 Turbo / GPT-4微软 Azure 认知服务的个人语音服务 TTS Go SDK
7微软 Azure 认知服务的语音服务 ASR Go SDK商汤日日新商量对话生成ElevenLabs 多语言 TTS WebSocket 服务
8通过累积微软 Azure 认知服务的流式语音服务 Go SDK 实现的非流式 ASRStarlark 泛型 NLPMiniMax T2A 流式语音生成服务
9MiniMax 对话生成 Pro
10商汤日日新拟人对话生成

服务供应商功能性差异 #

ASR #

中控需要达成的目标就是统一接口和解决兼容性的问题,但是由于供应商技术的局限性,不同 ASR 供应商在功能上是存在一定的差异的。具体表现如下:

属性ASR1ASR2ASR3ASR5ASR6ASR7ASR8
主动式 EOF模拟支持支持支持支持支持支持支持
字幕支持支持支持支持支持
中间结果支持支持支持不存在支持支持

注意:ASR4 为研究侧中间版本,已经废弃,被 ASR5 和 ASR6 取代。

TTS #

中控需要达成的目标就是统一接口和解决兼容性的问题,但是由于供应商技术的局限性,不同 TTS 供应商在功能上是存在一定的差异的。具体表现如下:

属性TTS1TTS2TTS3TTS4/TTS5TTS6TTS7
发音人支持思必驰已经购买的发音人支持思必驰已经购买的发音人支持自研已经部署的发音人模型支持微软认知服务 GA 的发音人支持微软认知服务 Personal Voice 发音人支持 ElevenLabs 预制及克隆的发音人
情感化部分发音人支持部分发音人支持Dragon 不支持,Phoenix 支持不支持
SSML支持,使用思必驰标准支持,使用思必驰标准支持,使用商汤标准支持,使用微软标准支持,使用微软标准部分支持,使用 ElevenLabs 标准
音频格式支持 pcm 和 mp3支持 pcm, wav 和 mp3支持 pcm, wav 和 mp3支持 pcm 和 mp3支持 pcm 和 mp3支持 pcm 和 mp3
采样率支持8000, 160008000, 160008000, 11025, 16000, 22050, 24000, 32000, 44100, 480008000, 16000, 22050, 24000, 44100, 480008000, 16000, 22050, 24000, 44100, 4800016000, 22050, 24000, 44100
音素支持思必驰音素字符串,用空格间隔思必驰音素 JSON 结构自研音素字符串,用空格间隔不支持不支持不支持
字幕支持支持TTS5 支持Dragon 不支持,Phoenix 支持支持
多音字支持支持不支持
时间戳支持支持TTS5 支持Dragon 不支持,Phoenix 支持不支持
音量支持支持支持支持支持不支持不支持
语速支持支持支持支持支持支持不支持
音调支持支持支持支持支持Dragon 不支持,Phoenix 支持不支持

TTS 发音人列表 #

下表仅包含常用发音人,完整列表需从具体厂商处获取。

服务供应商供应商编号发音人名称发音人 ID语言是否默认
思必驰TTS1 / TTS2精品男声秋木qiumum_0gushizh-CN
精品电台男声考拉kaolam_diantaizh-CN
精品四川话女声文卿wqingf_csnzh-CN
精品甜美女声小静xjingfpzh-CN
精品温柔女声小兰gqlanfpzh-CN
精品甜美女声小咪xmamifzh-CN
精品可爱男童连连lzliafpzh-CN
精品娱播女声麻豆madoufp_yubozh-CN
精品甜美女声婷婷xmguofzh-CN
精品客服女声芳芳gdfanfpzh-CN
精品温柔女声麻豆madoufp_wenrouzh-CN
精品女声蓝雨lanyufzh-CN
精品女声小浩lucyfazh-CN
精品粤语女声何春hchunf_ctnzh-CN
精品男声小军xijunmazh-CN
精品甜美女神小玲zhilingfpzh-CN
精品女声安宁aningfpzh-CN
精品女学生初阳cyangfpzh-CN
精品客服女声小美juan1fzh-CN
精品粤语女声晓健lunaif_ctnzh-CN
精品欢快女神小玲zhilingfp_huankuaizh-CN
精品知性女声晶晶jjingfpzh-CN
精品山东话女声大瑶dayaof_csdzh-CN
精品娱报女声璃璃lili1f_yubozh-CN
精品四川话女声胖胖ppangf_csnzh-CN
精品女童贝壳xbekefzh-CN
精品上海话女声叶子yezi1f_cshzh-CN
商汤自研TTS3晓灵xiaolingzh-CN
晓悦xiaoyuezh-CN
晓雨xiaoyuzh-CN
晓航xiaohangzh-CN
晓涵xiaohanzh-CN
晓美xiaomeizh-CN
晓可xiaokezh-CN
晓仙xiaoxianzh-CN
晓君xiaojunzh-CN
晓华xiaohuazh-CN
晓明xiaomingzh-CN
燕子xiaoyanzh-CN
晓芳xiaofangzh-CN
晓庄xiaozhuangzh-CN
微软 Azure 认知服务TTS4/TTS5普通话Xiaochen女生zh-CN-XiaochenNeuralzh-CN
普通话Xiaohan女生zh-CN-XiaohanNeuralzh-CN
普通话Xiaomo女生zh-CN-XiaomoNeuralzh-CN
普通话Xiaoqiu女生zh-CN-XiaoqiuNeuralzh-CN
普通话Xiaorui女生zh-CN-XiaoruiNeuralzh-CN
普通话Xiaoshuang女生zh-CN-XiaoshuangNeuralzh-CN
普通话Xiaoxiao女生zh-CN-XiaoxiaoNeuralzh-CN
普通话Xiaoxuan女生zh-CN-XiaoxuanNeuralzh-CN
普通话Xiaoyan女生zh-CN-XiaoyanNeuralzh-CN
普通话Xiaoyou女生zh-CN-XiaoyouNeuralzh-CN
普通话Yunxi男生zh-CN-YunxiNeuralzh-CN
普通话Yunyang男生zh-CN-YunyangNeuralzh-CN
普通话Yunye男生zh-CN-YunyeNeuralzh-CN
普通话Xiaoyou女生zh-CN-XiaoyouNeuralzh-CN
普通话Yunxi男生zh-CN-YunxiNeuralzh-CN
上海话Xiaotong女生wuu-CN-XiaotongNeuralwuu-CN
上海话Yunzhe男生wuu-CN-YunzheNeuralwuu-CN
日语Nanami女生ja-JP-YunzheNeuralja-JP
日语Keita男生ja-JP-KeitaNeuralja-JP
韩语SunHi女生ko-KR-SunHiNeuralko-KR
韩语InJoon男生ko-KR-InJoonNeuralko-KR
泰语Achara女生th-TH-AcharaNeuralth-TH
泰语Premwadee女生th-TH-PremwadeeNeuralth-TH
泰语Niwat男生th-TH-NiwatNeuralth-TH

TTS 发音人参考 #

完整列表 #

TTS SSML 语法参考 #

字幕换行标点符号范围 #

用于切割字幕的标点符号包括中日韩及拉丁语系常用标点

符号Unicode编码
!U+0021
"U+0022
'U+0027
(U+0028
)U+0029
,U+002C
.U+002E
:U+003A
;U+003B
?U+003F
[U+005B
\U+005C
]U+005D
^U+005E
`U+0060
{U+007B
|U+007C
}U+007D
~U+007E
U+00A0
¡U+00A1
¤U+00A4
¦U+00A6
§U+00A7
¨U+00A8
«U+00AB
´U+00B4
U+00B6
¸U+00B8
»U+00BB
¿U+00BF
U+2010
U+2014
U+2018
U+2019
U+201C
U+201D
U+2025
U+2026
U+2E18
U+2E19
U+2E1A
U+2E1B
U+2E1E
U+2E1F
U+2E2E
U+2E2F
U+2E30
U+2E31
U+2E41
U+2E42
U+2E43
U+2E44
U+3001
U+3002
U+3003
U+3008
U+3009
U+300A
U+300B
U+300C
U+300D
U+300E
U+300F
U+3010
U+3011
U+3014
U+3015
U+3016
U+3017
U+3018
U+3019
U+301A
U+301B
U+301C
U+301D
U+301E
U+301F
U+FE10
U+FE11
U+FE12
U+FE13
U+FE14
U+FE15
U+FE16
U+FE17
U+FE18
U+FE19
U+FE50
U+FE51
U+FE52
U+FE54
U+FE55
U+FE56
U+FE57
U+FE59
U+FE5A
U+FE5B
U+FE5C
U+FE5D
U+FE5E
U+FE61
U+FE68
U+FF01
U+FF08
U+FF09
U+FF0C
U+FF1A
U+FF1B
U+FF1F
U+FF5E
U+FF61
U+FF62
U+FF63
U+FF64

Special Case #

一部分非标点符号的写法不会被切割,如下:

  1. 带有小数点的数字,如 1.2
  2. 带有"’“缩写的英文,如 I’m
  3. 带有”:“的时间,如 12:00
  4. 带有”.“的英文缩写,如 U.S.A.

以上特例的判断标准为:符号前后都是英文或数字,且符号前后都不是空格。