华为云计算 云知识 语音交互服务包括哪些语音识别服务?
语音交互服务包括哪些语音识别服务?

语音交互 服务(Speech Interaction Service,简称SIS)是一种人机交互方式,以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户通过实时访问和调用API获取语音交互结果。目前语音交互服务仅支持中文识别与合成。

语音交互包括以下子服务:

定制 语音识别 (ASR Customization,ASRC):基于深度学习技术,提供针对特定领域(如快递行业)优化的语音识别能力,并可自定义语言模型。定制语音识别包含 一句话识别 、录音文件识别功能。支持热词定制。

实时语音转写(Real-time ASR,RASR):将连续的音频流实时转换成文本,语音识别更快。

短语音识别(Automatic Speech Recognition,ASR):将时长低于1min的口述音频转换为文本。

语音合成 (Text To Speech, TTS ):是一种将文本转换成逼真语音的服务。

定制语音合成(Text To Speech Customization,TTSC):依托华为先进的语音技术,使用深度学习算法,将文本转换为自然流畅的语音。


上一篇:新工科背景下,探索基于鲲鹏技术的计算机体系结构课程群教学新模式 下一篇:云服务器备份的应用场景

一句话识别

短语音识别将口述音频转换为文本,通过API调用识别不超过一分钟的不同音频源发来的音频流或音频文件。适用于语音搜索、人机交互等语音交互识别场景。