WHCSRL 技术网

将wave.open读取的流转换为跟soundfile一样的numpy结果

声纹识别首先的一件事是对语音进行VAD处理,VAD使用的方法通常是使用wave来读取声音文件,通过此方法静音后的数据常常是bytes类型,那么如何转换成soundfile文件的numpy结果呢?
操作如下:

voiced_frames = np.frombuffer(voiced_frames, dtype=np.int16).astype(np.float32) / 32768.0
  • 1

此处的voiced_frames即为bytes数据流。

推荐阅读