当前位置: 首页 > 软件库 > 应用工具 > 多媒体工具 >

MindAudio

语音领域开源一体化工具包
授权协议 Apache-2.0
开发语言
所属分类 应用工具、 多媒体工具
软件类型 开源软件
地区 国产
投 递 者 姬正文
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

MindAudio是一个基于全场景 AI 框架 MindSpore 建立的,针对语音领域的开源一体化工具包。它提供语音领域的常用音频数据处理、音频特征提取以及音频数据增强等系列API,用户可便利地进行数据预处理;提供常用数据集以及SoTA模型,支持多个语音处理任务如语音识别、文字到语音生成、声纹识别、语音分离等。

主要特性

  • 丰富的数据处理API MindAudio提供了大量易用的数据处理API,用户可轻松实现音频数据分析,以及对音频算法任务中的数据进行特征提取和增强等。
>>> import mindaudio
# 读取音频文件
>>> test_data, sr = mindaudio.read(data_path)
# 对原始数据进行变速
>>> matrix = mindaudio.speed_perturb(signal, orig_freq=16000, speeds=[90,  100])
  • 集成常用数据集,一键进行数据预处理 由于音频深度学习领域中数据集较多,处理过程较复杂,对新手不友好。MindAudio针对不同数据提供一套高效的数据处理方案,并支持用户根据需求进行定制化修改。
>>> from ..librispeech import create_base_dataset, train_data_pipeline
# 创建基础数据集
>>>ds_train = create_base_dataset(manifest_filepathlabels)
# 进行数据特征提取
>>>ds_train = train_data_pipeline(ds_train, batch_size=64)
  • 支持多种任务模型 MindAudio提供多种任务模型, 如ASR任务中的DeepSpeech2,TTS任务中的WavGrad等,并提供预训练权重、训练策略和性能报告,帮助用户快速上手复现音频领域任务。
  • 灵活高效 MindAudio基于高效的深度学习框架MindSpore开发,具有自动并行和自动微分等特性,支持不同硬件平台上(CPU/GPU/Ascend),同时支持效率优化的静态图模式和调试灵活的动态图模式。

音频数据分析

mindaudio提供一系列常用的音频数据处理API,可便捷调用进行数据分析及特征提取。

>>> import mindaudio
>>> import numpy as np
>>> import matplotlib.pyplot as plt
# 读取音频文件
>>> test_data, sr = mindaudio.read(data_path)
# 进行数据特征提取
>>> n_fft = 512
>>> matrix = mindaudio.stft(test_data, n_fft=n_fft)
>>> magnitude, _ = mindaudio.magphase(matrix, 1)
# 画图展示
>>> x = [i for i in range(0, 256*750, 256)]
>>> f = [i/n_fft * sr for i in range(0, int(n_fft/2+1))]
>>> plt.pcolormesh(x,f,magnitude, shading='gouraud', vmin=0, vmax=np.percentile(magnitude, 98))
>>> plt.title('STFT Magnitude')
>>> plt.ylabel('Frequency [Hz]')
>>> plt.xlabel('Time [sec]')
>>> plt.show()

结果展示:

 

 相关资料
  • 3.1 ABP领域层 - 实体 实体是 DDD(领域驱动设计)的核心概念之一。Eric Evans 是这样描述的“很多对象不是通过它们的属性定义的,而是通过一连串的连续性事件和标识定义的”(引用领域驱动设计一书)。 译者注:对象不是通过它们的属性来下根本性的定义,而应该是通过它的线性连续性和标识性定义的。所以,实体是具有唯一标识的ID且存储在数据库中。实体通常被映射成数据库中的一个表。 3.1.1

  • 我有一个项目,我正在通过GSON和Volley阅读一些json。我想把我的数据保存在数据库中,我希望Realm是一个好的解决方案。我选择了我的第一个类,它有七个成员变量,所有的Strings和int,并让它扩展RealmObject,并将其中一个int确定为主键。它编译得很好,但是当它运行时,我在日志中得到大量的输出,最终应用程序在显示主要活动之前就崩溃了。GSON似乎不喜欢解析扩展了RealmO

  • 主要内容:住宅能源,商业能源,可靠性物联网在能源管理和监管领域发挥着至关重要的作用。用于此的术语是智能能源系统。物联网应用监控各种能源控制功能,以满足住宅和商业用途。 住宅能源 随着技术日益增加,它也增加了能源成本。消费者寻找能够降低和控制能源成本的方式。物联网提供了一种成熟的方法来分析和优化设备的使用以及家庭的整个系统。它可能正在改变设备设置,只需打开/关闭或调暗灯光以优化能源使用。 商业能源 能源的浪费广泛影响商业企业的生产成本

  • 3.6 ABP领域层 - 领域事件 在C#中,一个类可以定义其专属的事件并且其它类可以注册该事件并监听,当事件被触发时可以获得事件通知。这对于对于桌面应用程序或独立的Windows Service来说非常有用。但是, 对于Web应用程序来说会有点问题,因为对象是根据请求(request)被创建并且它们的生命周期都很短暂。我们很难注册其它类别的事件。同样地,直接注册其它类别的事件也造成了类之间的耦合

  • 3.4 ABP领域层 - 领域服务 3.4.1 简介 领域服务(或者服务,在DDD模式中)是被用来执行领域操作或者业务规则的。Eric Evans 在他的DDD书中这样说过:一个好的Service应该有以下三个特征: 与领域概念相关的操作不是Entity或Value Object 的一个自然部分; 接口是根据领域模型的其它元素定义的; 操作是无状态的。 领域服务和Application Servi

  • 如何使用嵌入式iframe方法解决跨域问题?意思是我有域A和域B,并想在域B上嵌入域A,以绕过同源策略?一个详细的例子将是伟大的!