前言
语音合成技术能将用户输入的文字,转换成流畅自然的语音输出,并且可以支持语速、音调、音量设置,打破传统文字式人机交互的方式,让人机沟通更自然。
应用场景
将游戏场景中的公告、任务或派单信息通过语音播报,让玩家玩游戏或配送员送货的同时,也可接听新任务。
文学小说类软件,可以利用百度语音合成技术将文学小说作品进行高质量的朗读,流畅清晰,解放双眼,畅听世界。
软件架构
Python3.7.2、Django2.1.7、baidu-aip(百度语音API)
案例
这里只展示部分代码,有兴趣的同学可以自行下载源码安装调试。
import os import time import codecs from aip import AipSpeech from django.shortcuts import render from django.http import HttpResponse ''' pip install --upgrade pip pip install django pip install baidu-aip ''' def main(request): return render(request, 'index.html') def m_main(request): return render(request, 'm_index.html') def convert(request): message = request.POST.get("message") switch = request.POST.get("switch") mp3 = du_say(message, switch) return HttpResponse(mp3) def du_say(message, switch): write_txt(message) app_id = '*****' api_key = '*****' secret_key = '*****' client = AipSpeech(app_id, api_key, secret_key) if switch == "true": switch = 3 else: switch = 4 result = client.synthesis(message, 'zh', 1, { 'vol': 5, 'per': switch, }) t = time.time() now_time = lambda: int(round(t * 1000)) path = os.getcwd() + os.path.sep + "static" + os.path.sep + "audio"+os.path.sep audio = path+str(now_time())+'.mp3' # 识别正确返回语音二进制 错误则返回dict 参照下面错误码 if not isinstance(result, dict): with open(audio, 'wb') as f: f.write(result) return str(now_time())+'.mp3' def write_txt(message): t = time.time() now_time = lambda: int(round(t * 1000)) path = os.getcwd() + os.path.sep + "static" + os.path.sep + "text"+os.path.sep text = path+str(now_time())+'.txt' with codecs.open(text, 'a', encoding='utf8')as f: f.write(message)
本地部署
从码云拉取项目到本地:
https://gitee.com/52itstyle/baidu-speech.git
配置百度语音API:
# 自行注册申请 https://console.bce.baidu.com/ai/#/ai/speech/app/list
启动项目:
# 切换到项目根目录,执行 manage.py runserver
外网部署
这里以Linux为例,代理使用 openresty。
安装 Python3
wget https://www.python.org/ftp/python/3.7.1/Python-3.7.1.tar.xz
事先安装依赖,否则后期安装会报错:
yum -y install zlib* yum -y install libffi-devel
下面开始正式安装:
# 解压 tar -xvf Python-3.7.1.tar.xz # 切换大目录 cd Python-3.7.1 # 配置编译 ./configure # 编译安装 make && make install
安装 Django
pip install Django
安装成功以后需要重新配置并编译安装 Python3:
# 配置编译 ./configure # 编译安装 make && make install
安装服务器 uwsgi
pip3 install uwsgi
上传项目到服务器,并切换到 speech 目录:
# 目录下新建文件夹 mkdir script
在 script 下新增 uwsgi.ini (项目中已经配置好,自行修改路径即可):
# uwsig使用配置文件启动 [uwsgi] # 项目目录 chdir=/www/speech/ # 指定项目的application module=speech.wsgi:application # 指定sock的文件路径 socket=/www/speech/script/uwsgi.sock # 进程个数 workers=5 pidfile=/www/speech/script/uwsgi.pid # 指定IP端口 http=127.0.0.1:8001 # 指定静态文件 static-map=/static=/www/speech/static # 启动uwsgi的用户名和用户组 uid=root gid=root # 启用主进程 master=true # 自动移除unix Socket和pid文件当服务停止的时候 vacuum=true # 序列化接受的内容,如果可能的话 thunder-lock=true # 启用线程 enable-threads=true # 设置自中断时间 harakiri=30 # 设置缓冲 post-buffering=4096 # 设置日志目录 daemonize=/www/speech/script/uwsgi.log
然后使用以下命令启动:
uwsgi --ini uwsgi.ini
执行命令,查看是否启动成功:
[root@AY140216131049Z script]# ps -ef|grep uwsgi root 3040 1 0 Nov21 ? 00:00:03 uwsgi --ini uwsgi.ini root 3041 3040 0 Nov21 ? 00:00:00 uwsgi --ini uwsgi.ini root 3042 3040 0 Nov21 ? 00:00:00 uwsgi --ini uwsgi.ini root 3043 3040 0 Nov21 ? 00:00:00 uwsgi --ini uwsgi.ini root 3044 3040 0 Nov21 ? 00:00:00 uwsgi --ini uwsgi.ini root 3045 3040 0 Nov21 ? 00:00:00 uwsgi --ini uwsgi.ini root 3046 3040 0 Nov21 ? 00:00:00 uwsgi --ini uwsgi.ini root 6606 6580 0 18:13 pts/0 00:00:00 grep --color=auto uwsgi
重启:
uwsgi --reload uwsgi.pid
配置Nginx代理:
server { listen 80; server_name speech.52itstyle.vip; charset utf-8; location / { include uwsgi_params; # 导入一个Nginx模块他是用来和uWSGI进行通讯的 uwsgi_connect_timeout 30; # 设置连接uWSGI超时时间 uwsgi_pass unix:/www/speech/script/uwsgi.sock; # 指定uwsgi的sock文件所有动态请求就会直接丢给他 } # 动静分离 Nginx 处理静态请求 location /static { root /www/speech/; } }
如果启动HTTPS:
server { listen 80; listen 443 ssl; server_name speech.52itstyle.vip; #ssl on; #证书路径 ssl_certificate /usr/local/openresty/nginx/cert/1901523_speech.52itstyle.vip.pem; #私钥路径 ssl_certificate_key /usr/local/openresty/nginx/cert/1901523_speech.52itstyle.vip.key; #缓存有效期 ssl_session_timeout 5m; #可选的加密算法,顺序很重要,越靠前的优先级越高. ssl_ciphers ECDHE-RSA-AES128-GCM-SHA256:ECDHE:ECDH:AES:HIGH:!NULL:!aNULL:!MD5:!ADH:!RC4; #安全链接可选的加密协议 ssl_protocols TLSv1 TLSv1.1 TLSv1.2; ssl_prefer_server_ciphers on; location / { include uwsgi_params; # 导入一个Nginx模块他是用来和uWSGI进行通讯的 uwsgi_connect_timeout 30; # 设置连接uWSGI超时时间 uwsgi_pass unix:/www/speech/script/uwsgi.sock; # 指定uwsgi的sock文件所有动态请求就会直接丢给他 } # 动静分离 Nginx 处理静态请求 location /static { root /www/speech/; } }
演示地址
https://speech.52itstyle.vip/
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持小牛知识库。
1.1.1. TTS 1.1.1. TTS 我们的语音合成接口使用 C/S 架构,服务端默认启动,开发者需要通过调用客户端接口与服务端通讯,TTS服务架构图如下: 客户端头文件目录位于: #include <tts/tts_client.h> 除了要 include 头文件外,还需要链接 -lrktts。 API int tts_init(); // tts初始化接口 int tts_spe
1.1. TTS(语音合成) HTTP接口文档 1.1.1. 概述 1.1.2. 服务地址 1.1.3. 协议详解 1.1.4. 协议概述 1.1. TTS(语音合成) HTTP接口文档 1.1.1. 概述 本文档目的是描述Rokid云TTS(语音合成)HTTP接口协议,面向想要了解TTS细节,并具有一定开发能力的开发者或用户。 1.1.2. 服务地址 环境 地址 用途 线上 https://ma
1.1. TTS(语音合成) WebSocket接口文档 1.1.1. 概述 1.1.2. 服务地址 1.1.3. 协议详解 1.1.4. 协议地址 1.1.5. 协议概述 1.1. TTS(语音合成) WebSocket接口文档 1.1.1. 概述 本文档目的是描述Rokid云TTS(语音合成)WebSocket接口协议,面向想要了解TTS细节,并具有一定开发能力的开发者或用户。 1.1.2.
1.1.1. 开放平台接口定义文档(http版) - 语音合成 1.1.2. 简介 1.1.3. 编解码 1.1.4. 认证方式 1.1.5. Curl示例 1.1.6. 设备认证 1.2. 语音合成API 1.2.1. 请求URL 1.2.2. proto 文件 1.2.3. 请求和回复数据 1.1.1. 开放平台接口定义文档(http版) - 语音合成 1.1.2. 简介 Rokid语音合成服
1.1.1. 语音合成 WebSocket 接口定义文档 1.1.2. 概述 1.1.3. 协议详解 1.1.4. 服务地址 1.1.5. 协议地址 1.1.6. 协议概述 1.1.1. 语音合成 WebSocket 接口定义文档 1.1.2. 概述 本文档目的是描述云端语音接口的 WebSocket 版本的开放协议,面向想要了解语音合成(TTS)细节,并具有一定开发能力的开发者或用户。 1.1.
1.1. 语音合成 1.1.1. 技术简介 1.1.2. 主要功能 1.1.3. 优势亮点 1.1. 语音合成 语音合成(TTS, Text-to-speech),用于将文本转换为语音,让应用或设备具备开口说话的能力,提升人机交互体验。语音合成广泛应用于人机对话、新闻朗读、语音导航等场景。 1.1.1. 技术简介 Rokid TTS采用参数合成方法,结合深度学习技术的运用,让机器可以生成真实自然的