语音能力和硬件设计介绍

优质
小牛编辑
132浏览
2023-12-01

1.1.1. 目录

1.1.2. Rokid语音产品硬件设计指南

Rokid将基于自身打磨多年的历代产品经验,进行总结和归纳,并免费开放给用户。用户可以立即将Rokid优秀的语音整套解决方案,轻松地集成到具有麦克风和喇叭的联网设备上,打造业界优秀的语音交互产品(VoiceUI or VUI products)。

1.1.3. Rokid开放平台技术优势

  • Rokid拥有完整自主知识产权的全功能语音链条;

  • 远场语音识别的优化:Rokid积累了数年的远场语音真实数据,并用于自有的ASR引擎训练优化,针对智能家居、远距离控制等应用场景具备更好的识别率;

  • 软硬件全流程的技术方案:从麦克风选型、阵列设计,到前端语音处理算法、云端建模,Rokid能够做到硬件和软件的全栈式优化的技术方案;

  • 顶尖的本地和云端建模核心技术:Rokid的语音唤醒、识别、合成以及语义理解,均采用了业界最新最先进的算法建模技术,包括CTC、DeepCNN、LSTM等End To End的语音语义建模算法,结合真实的用户数据,能够达到业界最好的识别和理解水平;

  • 高度灵活和可定制的云端语义理解技术:我们的NLU开放平台可由用户来完成全部订制,并可为用户提供专门的理解模型的训练;

  • TTS定制和变声技术:为用户提供TTS模型订制以及变声订制(其他平台很少提供这样的服务);

1.1.4. 典型产品示例

开启若琪VUI的方式有两种:触摸以及语音激活;触摸可以通过遥控器或者手机APP,语音则是叫一声"若琪",类似若琪和若琪•月石的激活词。

           <img src="images/14905998252933.jpg" width="93%">   <img src="images/14905998526692.jpg" width="100%">   <img src="images/14905998649511.jpg" width="70%">

应用场景 触摸(\<0.5m) 2-3米激活词 3-5米激活词 智能音箱 ● ● 遥控器 ●
手机APP ●
OTT/机顶盒 ● ● ● 智能家居 ● ● 车载 ● ●

1.1.5. 工业设计和结构设计指南

工业设计指南

为保证语音体验的完好,建议水平设置; 如果产品设计所需,麦克风的倾斜角度必须\<30度

麦克风阵列排布

① 均匀圆形阵列

数量 设计半径R


4 18mm\<R\<=30mm 6 25mm\<R\<=43mm 8 30mm\<R\<=56mm 16 60mm\<R\<=110mm

② 均匀线性阵列

数量 设计间距L


2-8 30mm\<L\<=60mm(43mm最佳)

结构设计原则

麦克风导音孔:不影响频响效果; 腔体设计、避震等case by case;

1.1.6. 硬件芯片方案

支持业界主流应用处理器AP

Rokid开放平台的远距离拾音技术可轻松地移植到支持Android与Linux平台的AP:

  • Amlogic
  • Samsung
  • Qualcomm
  • Rockchip
  • Allwinner
  • Others

第三方降噪方案的集成

Rokid开放平台可以将业界优秀的语音激活与降噪芯片厂商,集成到平台中,并与云端的语音识别技术配合,共同提供整体解决方案:

  • XMOS
  • Others

麦克风选型参考

语音方案支持业界主流麦克风:

  • I2S
  • PDM
  • Analog

建议用户在保证成本的同时,从信噪比SNR、灵敏度Sensitivity、相位一致性以及SPL曲线特征等参数进行选择。

麦克风数据格式

① 如果直接对接云端不通过我们的前端降噪模块,所需数据: - 采样频率:16K - 16bit - PCM/OPUS编码的音频文件

② 如果使用前端降噪,则需要按照mic阵列的参数完成一个配置文件,前端降噪支持:

  • 通道数量:2,4,6,8路 - 采样频率:48K - 32bit的PCM语音流