概述
随着人工智能的火热,现阶段越来越多的产品都想要加入语音功能。但语音的识别并不是那么容易的一件事情,于是各大互联网巨头都推出了语音识别产品,本篇文章主要介绍下百度的语音识别和语言合成功能。
要使用百度的语言功能需要先注册一个百度云账号,登陆到百度云,选择百度产品的‘人工智能’,点击‘语言识别’
点击后显示下面的页面
可以看到有两个按钮,‘立即使用’和‘技术文档’
我们可以先建立一个语音产品应用,点击‘立即使用’
如果之前没有创建过,那应用就是0个,可以先创建应用
在这个页面填写自己的应用名称和应用类型,再选择应用的功能。创建完成会生成
AppID,API Key,Secret Key,把这三个参数需要记录下来。
再打开百度的语音文档
百度的语音识别API是REST API接口,可以使用任意语言来使用。同时百度还提供了多种常见的编程语言的API。我们以python为例子来演示百度的语言识别和语言合成过程.
语音识别
使用python的百度语音识别,需要下载百度的语音SDK包
执行下面命令:pip install baidu-aip
output.wav是使用录音软件录下的16000采样率单声道的语音文件。
from aip import AipSpeechimport wavedef get_pcm_from_wav(filename):wav = wave.open(filename,'rb')return wav.readframes(wav.getnframes())APP_ID = '你自己的AppID'APP_KEY = '你自己的app key'SECRET_KEY = '你自己的Secret Key'client = AipSpeech(APP_ID,APP_KEY,SECRET_KEY)pcm_con = get_pcm_from_wav('output.wav')res = client.asr(pcm_con,'pcm',16000,{'dev_pid:':1536})print(res)
执行python asr_test.py
输出:
{'corpus_no': '6763268067273881154', 'sn': '172374735471574696057', 'err_no': 0, 'err_msg': 'success.', 'result': ['这是一个语音测试']}
语音合成
使用百度的语音合成非常简单,把上面的代码稍微改下:
from aip import AipSpeechimport osAPP_ID = '你自己的AppID'
APP_KEY = '你自己的app key'
SECRET_KEY = '你自己的Secret Key'
client = AipSpeech(APP_ID,APP_KEY,SECRET_KEY)result = client.synthesis('请把我的文字直接播放','zh',1,{'vol':5})if not isinstance(result,dict):with open('tts.mp3','wb') as f:f.write(result)os.system('play tts.mp3')
执行python3 tts_test.py
这时候就可以在电脑里面播放出'请把我的文字直接播放'这句话
上面的代码在ubuntu16.04下面都调试通过。
郑重声明:本文作品为原创,如转载须注明出处“头条号:物联网电子世界”