预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共33页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

语音识别前言◆语音识别的重要性 ◆语音识别的定义和分类 ◆语音识别技术简介 ◆特征提取 语音识别的重要性人与人之间、人与机器之间的语音信息处理过程语音识别的定义语音识别的分类语音识别最基本的定义是“电脑能听懂人类说话的语句或命令,而做出相应的工作”。也就是说,如果电脑配置有“语音识别”的程序组,那么当你的声音通过一个转换装置输入电脑内部、并以数位方式存储后,语音识别程序便开始以你的声音样本与事先存储好的声音样本进行对比工作.声音对比工作完成后,电脑就会输出一个它认为最“象”的声音样本序号,由此可以知道你刚才念的声音是什么意义,进而执行命令。计算机自动语音识别的任务就是研究如何利用计算机从人的声学语音信号中提取有用信息,并从中确定语音信号的语言含义。其应用背景及学科基础如图所示。其最终目标是实现人与机器进行自然语言通信。语音信号的应用和发展语音系统可用之处语音识别具有广阔的应用前景,随着信息产业和互联网的快速发展,对语音识别的需求也更加迫切。比如在声讯服务中,要实时查询股票交易、航班动态、车站票务动态等,用传统的声讯技术已难以胜任,而用语音技术则能解决这些海量信息的动态查询。还有,人们希望在嵌入式系统中做成无处不在的信息家电,希望把因特网上的信息用电话送到千家万户,还有一个更美好的愿望,就是在不久的将来,能够把语音、图像、动画与互联网技术相结合,造就虚拟现实的新一代多媒体,语音技术大大降低了人们迈进信息时代的门槛,并开辟了许多新的信息服务及应月领域,它现在形成一个新兴的产业。正因为如此,世界各国不仅把语音技术列入了高技术研究计划,而且作为21世纪信息产业的重要竞争市场。国内外发展动态进入九十年代,随着多媒体时代的来临迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM,Apple,AT&T,NTT等著名公司都为语音识别系统的实用化开发投以巨资. 我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中,具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。语音识别技术两个发展方向现在的语音识别系统语音识别在3G中的应用TI的OMAP平台OMAP优点OMAP5910内部框图基于OMAP的抗噪语音识别系统基于OMAP的抗噪语音识别系统◆语音识别系统的分类方式及依据◆不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图1所示。待识别的语音经过话筒变换成电信号后加在识别系统的输入端,首先要经过预处理,预处理预处理包括反混叠失真滤波、预加重和端点检测。等。经过预处理后,按照一定的特征提取方法产生语音特征参数,这些特征参数的时间序列便构成了待识别语音的模式,将其与已经存储在计算机内的参考模式逐一进行比较(模式匹配),最佳匹配(由判决规则确定)的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练过程。语音识别所遇到的难题是搜索最佳识别结果和参数训练。目前,语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。由于人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力等都使它极适宜于解决类似于语音识别这一类课题,它既适用于底层又适用于顶层。人工神经网络是在模拟人脑神经组织的基础上发展起来的全新的计算系统,它是由大量计算单元通过丰富联结构成的复杂的网络。在一定程度上反映了人脑功能的若干基本特性,是一种更接近于人的认知过程的计算模型。 贯穿于语音分析全过程的是“短时分析技术”。因为语音信号从整体来看,其特性及表征其本质特性的参数均是随时间而变化的,所以它时一个非平稳态过程。不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是从另一方面看,在一个短时间范围内(一般认为在10-30ms的短时间内)。其特性基本保持不变,即相对稳定,因而可以将其看作是一个准稳态过程。即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分为一段一段来分析其特征参数,其中每一段称为“一帧”,帧长一般取为10-30ms。这样,对整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。语音特征参数是分帧提取的,每帧特征参数一般构成一个矢量,因此语音特征量是一个矢量序列。语音信号