预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共32页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(2)声音信号的心理学特征 人们感知到的声音特征称为心理学特征。 音调:在音乐中又叫音高,是由发声物体的振动频率决定,振动越快(即频率越大),音调越高,振动越慢,音调越低。音调的高低与声音基频的对数(20*log)成线性关系。基频越低,给人的感觉是声音越低沉,基频频率增加一倍,在音乐上就叫升高了一个八度。 音色:这是一个主观评价声音的量,声音的音色取决于声音的频谱结构,一般高次谐波越丰富,音色越明亮并具有穿透力。 响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅越大声音越响,其次人耳距离声源越远,声音越小。 (3)声音质量的评价 声音质量与带宽有关,频率范围越宽,声音质量越高。 1)声音质量分级:按照声音信号的频率范围将声音质量分为5级。 3.音频信号的表示 声音信号通过麦克风等设备转换成电信号以后称之为音频信号。 (1)规则音频信号 规则音频(Audio)是带有语音、音乐和音效的有规律的音频信号,承载了一定的信息。 语音:是语言的载体,有丰富的语言内涵,是人类交流的信息载体。 音乐:是一种规范的符号化的声音。 音效:是指自然界中的其他各种声音效果,如掌声、雷鸣声,爆破声等。 不规则声音:不包含任何信息的声音,比如噪声。 (2)音频信号的表示 1)音频信号的数学表示 其中:ω0表示声音的基音,决定了音调的高低,nω0是ω0的n次谐波分量,代表了声音的泛音,决定了声音的音色,An是声波的振幅,表示声音的强弱。2)音频信号的波形表示声音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的,属于模拟信号。 (1)采样 声音信号在时间轴上的离散化,即每隔相等的一段时间抽取一个信号样本。 采样频率:每秒采样的次数。 奈奎斯特理论(Nyquisttheory):采样频率不应低于声音信号最高频率的两倍,这样就能把以数字声音还原成原来的声音,称为无损数字化。 fs>=2fmax 电话话音信号的最高频率约为3.4kHz,所以采样频率取为8kHz。(2)量化 将连续的声音信号的幅度离散化。 也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。 采样精度:即量化的位数,位数越多量化等级数也越多,所能表示的声波幅度的动态范围也越大,当然需要的存储空间也越大。 (3)编码 就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将量化值转换成二进制码组。 典型的音频编码方法:脉冲编码调制法(PCM)。 (4)数字音频的数据量 数据量=采样频率*采样精度*采样时间*声道数/8(字节数) 单声道:一次只产生一组声波数据, 立体声:一次产生两组声波数据,分别送往左声道和右声道,根据声音到达人耳的时间差产生空间立体效果,因此立体声声波数据所需存储空间是单声道的一倍。 例2.1计算一分钟未压缩的高保真立体声数字声音数据的大小。 60*(44100*16*2)/8=10.09MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB,那么一个容量为512MB的MP3播放器也只能播放12首这样的歌曲。(1)电话质量的语音压缩标准 (2)调幅广播语音压缩标准:G.722 (3)高保真立体声的宽带音频压缩标准1.WAV文件:波形文件,微软开发,需要的存储量大,多用于存储简短的声音片段和旁白。 2.MIDI文件:记录的是生成音乐的指令,MIDI文件短小。由于MIDI记录的并不是真正的声音,所以不同的声卡,不同软波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。 3.MP3文件:是MPEG音频第3层的简称,有损压缩,压缩比达12:1。MP3利用人耳的掩蔽特性,削减音频中人耳听不到的成分,同时尽可能地维持原来的声音质量。 4.RA文件:属于RealMedia的音频部分,采用流式传输方式,可以在非常低的带宽下提供足够好的音质让用户能在线聆听。 5.WMA文件:WindowsMedia的音频部分。无损压缩,支持多声道编码。 6.AC3文件:又叫杜比数码环绕立体声,压缩比10:1,提供的环绕声系统由5个全频域声道和1个超低音声道组成,称为5.1声道,一般作为DVD的伴音。2.1.3数字音频处理技术2)语音识别系统分类 对说话人说话方式的要求 孤立字(词)语音识别系统 连接字语音识别系统 连续语音识别系统。 对说话人的依赖程度 特定人语音识别系统 非特定人语音识别系统 词汇量大小 小词汇量语音识别系统 中等词汇量语音识别系统 大词汇量语音识别系统 无限词汇量语音识别系统。语音合成技术:指利用计算机合成语音信号的技术,使计算机能够产生高清晰度和高自然度的连续语音,能够具有类似普通人的说话能力。 语音合成的