语音识别

优质

小牛编辑

347浏览

2023-12-01

1.1. ASR(语音识别) HTTP接口文档

本文档目的是描述Rokid云ASR(语音识别)Http接口协议，面向想要了解ASR细节，并具有一定开发能力的开发者或用户。

环境	地址	用途
线上	https://mapi.open.rokid.com/rest/asr/requestid	对外提供的正式稳定环境

此协议遵循http协议。协议采用先认证，再使用的方式，步骤如下：

需要带包含认证信息的 authorization 的 http header 请求认证
需要带包含asr options信息的 voice-config的http header
使用 HTTP POST 方式
其中 Content-Type 为 Content-Type:application/octet-stream
请求url中的requestid需要自增或者唯一，两个并发请求的requestid相同时可能引发并发错误
一次完整的语音交互序列包含多个语音数据时，需要发送如下序列的多个 http post 请求：
1. 第一个请求的 type 设置为 START，并设置好其它参数，此请求可带上语音数据
2. 后面的多个请求设置 type 为 VOICE，并带上语音数据
3. 最后一个请求设置 type 为 END 包表示交互结束，此请求可带上语音数据
4. 以上请求需要使用相同的url，即相同的requestid
一次完整的语音交互序列只包含一个语音数据时，只需发送一个 http post 请求，其中 type 设置为 ONESHOT，并带上语音数据
第1点和第2点的authorization和voice-config http header 只需要在 type=START 或者 type=ONESHOT时设置
http header authorization 请看
http header voice-config value值组成如下：
```
codec=%s;voice_trigger=%s;engine=%s;need_hotWords=%s
```
字段说明：

参数	类型	描述	默认值
codec	string	语音流的编码，目前支持 PCM，OPU，OPU2，OPUS，AMRWB，AMRNB，PCM8K。 PCM，OPU，OPU2，OPUS，AMRWB 的语音数据格式为单通道，采样率16Khz，16bit； AMRNB，PCM8K的语音数据格式为单通道，采样率8Khz，16bit；	PCM
voice_trigger	string	激活词，即用于唤醒设备的名字，如"若琪"；可用 "\	" 分隔指定多个，如 "若琪\	洛奇"	空
engine	string	语音流引擎，目前支持ZH，KID，ZH-CS。	ZH
need_hotWords	bool	是否需要热词，保留字段，暂不生效	false

参数	类型	描述
id	int32	唯一标识，用于跟踪一个完整的请求，处理及响应事件。
type	string	结果类型：INTERMEDIATE、FINISH
asr	string	asr实时识别的结果
scores	Array[float]	asr实时识别的分数，score[0]=per am score; score[1]=glob am score; score[2]=glob lm score
result	string	结果信息 SUCCESS/ERROR等
asr_phoneticisms	string	每个字的拼音结果，json字符串，如“晓”字的拼音为{"phoneticism":"xiao3","word":"晓","type":"CHINESE"}

code 值	涵义
400	Bad Request ：url格式不对，requestId不对或者为空
405	非post方法不可行
413	请求体过大，HTTP BODY 最大支持655350；如果超过这个大小，建议用websocket方式进行流式传输
500	http协议层错误