我正在做一些关于如何比较声音文件(波形)的研究。基本上我想将存储的声音文件(wav)与麦克风的声音进行比较。因此,最后我想预存储自己的一些语音命令,然后在我运行我的应用程序时,我想将预存储的文件与麦克风的输入进行比较。
我的想法是在进行比较时要留出一定的余地,因为我猜很难以完全相同的方式连续说两次。
因此,经过一番谷歌搜索后,我发现python具有名为wave和Wave_read对象的模块。该对象具有一个名为readframes(n)的函数:
读取并返回最多n帧音频(以字节字符串形式)。
这些字节包含什么?我想一次将波形文件循环播放一帧,然后逐帧比较它们。
音频帧或样本包含该特定时间点的幅度(响度)信息。为了产生声音,依次播放成千上万帧以产生频率。
对于CD质量的音频或未压缩的波形音频,每秒大约有44,100帧/样本。这些帧中的每一个都包含16位分辨率,从而可以相当精确地表示声级。另外,由于CD音频是立体声的,所以实际上有两倍多的信息,左声道16位,右声道16位。
当您在python中使用声音模块获取框架时,它将作为一系列十六进制字符返回:
为了转换和比较这些值,您必须首先使用python wave模块的功能来检查位深度和通道数。否则,您将比较不匹配的质量设置。
我在尝试连接FFMPEG中的多个文件时遇到了一个问题;我的目标是通过串联不同类型的幻灯片来创建视频演示文稿: (a)图像幻灯片,通过循环帧片刻转换成视频。这些类型的幻灯片没有音频,所以我为它们添加了静音音轨: (b)视频幻灯片,它有一个覆盖的水印,并持续到视频结束。如果文件不包含音频,则添加的方式与前面的情况相同: 因此,一旦我有了所有生成的文件和一个包含所有文件名的。txt文件,我想使用简单的命
我正在从两个不同的线程接收视频H264编码数据和音频G.711 PCM编码数据,以mux/写入多媒体容器。 writer函数签名如下所示: 提前感谢! 编辑:在我的视频流中,没有B帧。所以,我认为这里PTS和DTS可以保持不变。
音频概述 没有音频的游戏是不完整的,例如背景音乐或音响效果。Unity 的音频系统灵活而强大。它可以导入大多数标准音频文件格式,并且为播放 3D 空间中的声音提供了复杂的功能,以及可选的音响效果,例如回音和过滤。Unity 还可以记录来自用户机器上任意可用麦克风的音频,以便在游戏过程中使用,或者用于存储和传输。 基础理论 在现实生活中,声音由对象发出,并被听众听到。声音被感知的方式取决于许多因素。
好吧,事情是这样的:我在做一个智力竞赛游戏,我决定给它放一张配乐。它是一个单一的音频文件,我上传到我的自定义域,并通过代码流。我还添加了播放/暂停按钮,这样播放器就可以播放和暂停音乐。音乐在框架1上自动播放,我的游戏的“开始”按钮在那里。但是,如果玩家答错了一个问题,他会回到第一帧。问题是音乐的另一个“实例”开始播放,导致两个音乐在同一时间播放。如果他再答错,就会有三首音乐回放,以此类推....我
音频 Unity 的音频功能包括完整 3D 空间声音、实时混音和母带处理、混音层次结构、快照、预定义效果等等。 阅读本节以了解 Unity 中的音频,包括剪辑、声源、侦听器、导入和声音设置。 相关教程: 音频 相关的提示、技巧和故障排除,等参阅 音频知识库 部分。