预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

软件学报 1000-9825/2002/13(08)1593-05©2002JournalofSoftwareVol.13,No.8 á 基于隐马尔可夫模型的音频自动分类 卢坚,陈毅松,孙正兴,张福炎 (南京大学计算机科学与技术系,江苏南京210093); (南京大学计算机软件新技术国家重点实验室,江苏南京210093) E-mail:jlu@graphics.nju.edu.cn http://www.nju.edu.cn 摘要:音频的自动分类,尤其是语音和音乐的分类,是提取音频结构和内容语义的重要手段之一,它在基于内容 的音频检索、视频的检索和摘要以及语音文档检索等领域都有重大的应用价值.由于隐马尔可夫模型能够很好 地刻画音频信号的时间统计特性,因此,提出一种基于隐马尔可夫模型的音频分类算法,用于语音、音乐以及它 们的混合声音的分类.实验结果表明,隐马尔可夫模型的音频分类性能较好,最优分类精度达到90.28%. 关键词:基于内容的音频分类;隐马尔可夫模型;向量量化;MFCC(mel-frequencycepstralcoefficient) 中图法分类号:TP391文献标识码:A 音频压缩和Internet媒体流(mediastreaming)技术的发展,推动着各种基于Internet的音频应用逐步走向实 用.但是,由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外,本身仅仅是一种非 语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,因而音频的检索和内容过滤等应 用都受到极大的限制.如何提取音频中的结构化信息和内容语义,使得无序的音频数据变得有序,是基于内容的 音频检索技术能否得以实用的关键所在. 音频自动分类的早期研究工作以文献[1,2]为代表.文献[1]训练一种神经元网络直接将声音类别映射到所 标注的文本.文献[2]使用自组织映射(self-organizingmapping,简称SOM)聚类算法对具有相似感觉特征的声音 进行聚类.真正意义上的基于内容的音频自动分类工作是由美国MuscleFish公司ErlingWold等人完成的[3], 他们详细分析了音频的区别性特征,包括响度(loudness)、音调(pitch)、亮度(brightness)、谐度(harmonicity)等, 并且根据最近邻准则(nearestneighbor,简称NN)和Mahalanobis距离设计音频的分类器,所用的数据集包括笑 声、铃声、电话声等16类共409个样本数据.在文献[3]提供的MuscleFish数据集上,文献[4~6]采用不同的特 征和分类器实现音频的分类.其中,文献[4]采用12阶的MFCC系数和能量作为音频的特征表示,根据极大互信 息准则(maximummutualinformation,简称MMI)训练决策树量化特征空间为离散的区域,并且根据最近邻准则 对音频作分类,文献[5,6]分别采用最近特征线(nearestfeatureline,简称NFL)和支持向量机(supportvector machine,简称SVM)作为分类器. 近年来,音频的自动分类在视频的检索和摘要、基于内容的语音检索等相关领域也日益引起了人们的重 视.在视频的检索和摘要中,人们发现简单的视觉特征,例如颜色、纹理、运动向量等并不能很好地反映视频的 内容和结构语义,而更高级的视觉语义特征的提取则相当困难,因此,文献[7~9]尝试在视频的检索和摘要中结合 音频(语音、音乐)、文本(字幕、标题)等信息,以克服单纯的视觉特征语义表达能力较弱这一缺点.文献[10,11] á收稿日期:2001-02-13;修改日期:2001-05-22 基金项目:国家自然科学基金资助项目(69903006,60073030) 作者简介:卢坚(1974-),男,浙江东阳人,博士,主要研究领域为音频的分割,分类和检索;陈毅松(1973-),男,四川资阳人,博士, 主要研究领域为图像压缩;孙正兴(1964-),男,江苏苏州人,博士,副教授,主要研究领域为CAD/CAM,数字图书馆;张福炎(1939-),男, 浙江绍兴人,教授,博士生导师,主要研究领域为多媒体技术,数字图书馆. 1594JournalofSoftware软件学报2002,13(8) 根据音频特征分别训练OCON(one-class-in-one-network)神经元网络和隐马尔可夫模型(hiddenMarkovmodel, 简称HMM)对电视节目作5种视频场景的分类:天气预报、新闻、广告、足球和篮球.文献[12]采用相位补偿 gamma滤波器组提取音频特征,并用于音频的分割、音乐内容的分析、暴力镜头的检测等方面.基于内容的语 音检索机制有关键词