功能介绍 #
ASR #
Automatic Speech Recognition,即自动语音识别。ASR 的主要功能就是将人类语音转化成书面语言。 想象一下,当你对着手机说“嘿,Siri,明天的天气怎么样?”的时候,手机会 “听” 到你的声音,并将你说的话变成文字,这就是ASR的作用。在人机交互中,ASR 是整个对话系统开始的入口,也就是让机器可以理解我们口头上的命令。
TTS #
Text to Speech,即文字转语音。与 ASR 正好相反,TTS 的主要功能是将文本信息转化为听得到的语音,让机器能够 “说” 出文字。 继续之前的例子,当手机要回答你“明天天气晴朗,适合外出。”这句话的时候,首先,它需要将这句文字转变成音频,然后播放出来,让你可以听到它的回应。这就是TTS的基本功能。在人机交互中,TTS是输出的重要环节,让机器能够以类似于人的方式回应我们的询问。
NLP #
Natural Language Processing,自然语言处理。NLP是计算机科学和人工智能的一个分支,是一种让计算机理解、解释和生成人类语言的技术。 在ASR将口语转化为文字之后,NLP就可以介入,理解你具体的命令是什么,并且生成相应的回应。在我们的例子中,“明天天气怎么样?”这句话被解析并理解了你想要了解明天的天气,然后生成了“明天天气晴朗,适合外出。”这句回应。简单来说,如果 ASR 和 TTS 分别代表让机器"听"和"说"的技术,那么NLP就是让机器 “理解” 和 “思考” 的技术。
人机语音交互 #
在人机交互中,这三个部分相互关联,共同组成了完整的人机对话系统。它们作用和互操作以及其过程通常如下:
- 当用户说出某条口头指令,ASR 技术就把这份口头指令的语音转化为可以处理的文本。
- 这份文字数据会被 NLP 技术处理,目的是理解用户的真正意图。比如用户说的“打开地图”,NLP 就会理解用户是想使用地图功能。
- 当理解了用户的指令之后,机器会执行相应的操作 —— 比如,将地图打开,并生成提示文字。
- 完成操作后,机器可能会用 TTS 技术将结果或状态反馈回用户,比如说出:“地图已打开,您要导航到哪里?”
- 这样就完成了一轮的交互。
这种一系列的作用过程,使得人们可以很自然地与电脑或其他设备进行交流,这也是现今智能语音助手(例如:Siri、Cortana、Alexa、天猫精灵、小爱同学、小度 等)的基础技术。
中控系统 #
这三大技术模块(ASR👂🏻、TTS👄 和 NLP💭)共同作用在一个对话系统中,而把它们协调起来的部分就是“中控系统”了。
中控系统就像是对话系统的大脑🧠,它将所有的模块整合在一起,协调它们的工作,使得整个系统可以平稳、高效地运行。这样的系统不仅能理解并回应用户的命令,还能为前端开发者和业务设计者提供更好的、更统一的服务。