功能介绍 #

ASR #

Automatic Speech Recognition，即自动语音识别。ASR 的主要功能就是将人类语音转化成书面语言。想象一下，当你对着手机说“嘿，Siri，明天的天气怎么样？”的时候，手机会 “听” 到你的声音，并将你说的话变成文字，这就是ASR的作用。在人机交互中，ASR 是整个对话系统开始的入口，也就是让机器可以理解我们口头上的命令。

TTS #

Text to Speech，即文字转语音。与 ASR 正好相反，TTS 的主要功能是将文本信息转化为听得到的语音，让机器能够 “说” 出文字。继续之前的例子，当手机要回答你“明天天气晴朗，适合外出。”这句话的时候，首先，它需要将这句文字转变成音频，然后播放出来，让你可以听到它的回应。这就是TTS的基本功能。在人机交互中，TTS是输出的重要环节，让机器能够以类似于人的方式回应我们的询问。

NLP #

Natural Language Processing，自然语言处理。NLP是计算机科学和人工智能的一个分支，是一种让计算机理解、解释和生成人类语言的技术。在ASR将口语转化为文字之后，NLP就可以介入，理解你具体的命令是什么，并且生成相应的回应。在我们的例子中，“明天天气怎么样？”这句话被解析并理解了你想要了解明天的天气，然后生成了“明天天气晴朗，适合外出。”这句回应。简单来说，如果 ASR 和 TTS 分别代表让机器"听"和"说"的技术，那么NLP就是让机器 “理解” 和 “思考” 的技术。

人机语音交互 #

在人机交互中，这三个部分相互关联，共同组成了完整的人机对话系统。它们作用和互操作以及其过程通常如下：

当用户说出某条口头指令，ASR 技术就把这份口头指令的语音转化为可以处理的文本。
这份文字数据会被 NLP 技术处理，目的是理解用户的真正意图。比如用户说的“打开地图”，NLP 就会理解用户是想使用地图功能。
当理解了用户的指令之后，机器会执行相应的操作 —— 比如，将地图打开，并生成提示文字。
完成操作后，机器可能会用 TTS 技术将结果或状态反馈回用户，比如说出：“地图已打开，您要导航到哪里？”
这样就完成了一轮的交互。

这种一系列的作用过程，使得人们可以很自然地与电脑或其他设备进行交流，这也是现今智能语音助手（例如：Siri、Cortana、Alexa、天猫精灵、小爱同学、小度等）的基础技术。

中控系统 #

这三大技术模块（ASR👂🏻、TTS👄 和 NLP💭）共同作用在一个对话系统中，而把它们协调起来的部分就是“中控系统”了。

中控系统就像是对话系统的大脑🧠，它将所有的模块整合在一起，协调它们的工作，使得整个系统可以平稳、高效地运行。这样的系统不仅能理解并回应用户的命令，还能为前端开发者和业务设计者提供更好的、更统一的服务。