跳转至

语音信号处理

本文记录语音信号处理的入门学习笔记。部分参考内容如下:

成绩组成:出勤+测验(*2)+期末大项目。

语音数据处理

数据类型

语音信号数字化。原始的模拟信号首先被麦克风捕捉,并由声音信号转化为电信号。接下来,电信号会由模数转换器 (Analog-to-Digital Converter, ADC) 经由采样过程转换为数字化表示。

人类可感知的声音频率范围:20 Hz - 20 kHz,声音强度范围:0 dB - 130 dB。

语音信号大约有三种表示方法:时域表示(时谱图)、频域表示(频谱图)、时频域表示(语谱图)。其余的表示方法都是在前三者的基础之上进行一定的变换得来,但本质不变。具体地:

时域图 频谱图 语谱图
时谱图 频谱图 语谱图

特征工程

频域宽度、过零率等。

Tip

接下来将会介绍深度学习在语音数据上的高阶应用,一些基础的语音技术比如:语音增强、回声消除、声源定位等内容本文不展开。

语音分类

一些细分场景比如:说话人识别(不限于人类,能发出声音的都行)、情感分析(根据声音判断你的情感状态)。

语音转文本

文本转语音


  1. 梁瑞宇, 王青云, 谢跃, 唐闺臣. 现代语音信号处理(Python版)[M]. 北京: 机械工业出版社, 2022.