预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第十讲句法模式识别 基本概念 1、结构模式识别: 有一些模式识别任务,不能在特征空间中用统计模式识别的方法得到解决。 汉字的识别:汉字有偏旁部首、笔划构成 字符的识别:字符的字体不影响识别 语言的识别:语言由音节、字、词构成 图像识别:画面分割,目标识别 生物识别:基因序列,染色体结构,心电图分类 定义: 以结构基元为基础,利用模式的结构信息完成分类的过程,称为“结构模式识别”。 其中“基元”指构成模式结构信息的基本单元,本身不包含有意义的结构信息。 基元的选取与应用有关: 文字:笔划或偏旁部首作为基元 语音:音素作为基元 心电图:收缩波和扩张波作为基元 图形:边缘线段、角点都可作为基元 a c c b b b d d d c c c b b b d d a b c d 轮廓基元 讨论: 结构模式识别是与统计模式识别完全不同的一大类模式识别问题,一个基于结构信息,一个基于特征值 结构模式识别不仅能完成分类,还可以得到每个模式的结构性质 结构模式识别的依据是模式间结构上的“相似性”,这种相似度的度量不能用一般特征空间中的距离来表示 结构模式识别可以采用句法方法、拓扑分析方法、图论方法等多种方法 基元提取和分类器训练上的困难使得结构模式识别方法仍未成熟 结构模式识别系统的模式信息通常来源于图像、音频等多媒体信息源 2、句法模式识别 (1)句法模式识别的定义: 句法模式识别是利用模式的结构信息,以形式语言理论为基础来进行结构模式识别的方法。 傅京荪(1930-1985) 美国工程院院士、Purdue大学讲座教授、台湾中央研究院院士,国际模式识别协会(InternationalAssociationforPatternRecognition:IAPR)创始人和首任主席,上世纪60年代提出句法模式识别。 (2)句法和文法: 句法 句法来源于语言学,是指由字(词)构成句子的方式,也就是一个句子组成的规则。 句法具有递归性,可以重复组合使用,用简单的规则可以表达复杂的结构。 可以用句法来表达结构模式识别中基元间的结构关系。 文法 文法是指一类相似的句子的共同句法规则。 可以用文法来表示一类样本的共同特点。 对某个具体的句子进行句法分析,判别与某类的文法是否相似,可以实现模式识别。 (3)形式语言: 形式语言是自然语言的抽象,是用一组明确的数学规则描述的语言,是语言的“数学化”,它由按一定规律构成的句子或符号串的有限或无限的集合组成。 乔姆斯基(NoamChomsky,1928--) 美国语言学家,HYPERLINK"http://zh.wikipedia.org/w/index.php?title=%E9%BA%BB%E7%9C%81%E7%90%86%E5%B7%A5%E5%AD%A6%E9%99%A2&variant=zh-tw"\o"麻省理工學院"麻省理工学院語言学与哲学系荣誉退休教授,曾任该系主任,并任该校认知科学研究中心主任。1957年出版了《句法结构》一书,提出了形式语言理论,其最初目的是为了研究人类语言抽象和通用的结构规则,后来在计算机编程语言、自动机理论、模式识别等方面都得到了广泛的验证和应用。在1980年到1992年,乔姆斯基是被文献引用数最多的健在HYPERLINK"http://zh.wikipedia.org/w/index.php?title=%E5%AD%A6%E8%80%85&variant=zh-tw"\o"學者"学者,并是有史以来被引用数第八多的学者。 3、句法模式识别系统的组成 预处理 特征提取 (基元提取) 句法分析 文法推断 模式信息 分类结果 类别文法 训练过程 分类过程 句法分析: 判断一个样本是否符合一定的文法,从而得到该样本与已知类别的相似性。 文法推断: 从分好类的训练集中获得该类所有样本的共同特征,形成代表每个类别的文法规则。 利用形式语言理论完善和坚实的数学基础,可用句法分析的方法来实现结构模式识别问题的求解 形式语言理论 基本概念: (1)字母表: 与所研究的问题有关的符号集合。 例:V1={A,B,C,D},V2={a,b,c,d},V3={0,2,6,8} (2)句子(链): 由字母表中的符号所组成的有限长度的符号串。 例如有字母表{0,1},则{0,1,00,01,0110}就是有效句子的集合。 不包括任何符号的句子称为空句,记为λ。 V*:由字母表V中的符号组成的所有句子的集合,包括空句子λ在内。 例:V*={λ,01,001} V+:不包括空句子在内的句子集合,即V+=V*-(λ) (3)句子(链)的长度: 句子所包含的符号数目,例:|a3b3c3|=9 (4)语言: 由字母表中的符号组成的句子集合,用L表示。 例:字母表V={