预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN102156693A*(12)发明专利申请(10)申请公布号CN102156693A(43)申请公布日2011.08.17(21)申请号201110070320.0(22)申请日2011.03.23(71)申请人中国科学院计算技术研究所地址100080北京市海淀区中关村科学院南路6号(72)发明人王超王向东钱跃良林守勋(74)专利代理机构北京律诚同业知识产权代理有限公司11006代理人祁建国梁挥(51)Int.Cl.G06F17/28(2006.01)G09B21/02(2006.01)权利要求书3页说明书13页附图3页(54)发明名称一种盲文输入方法和系统(57)摘要本发明公开了一种盲文输入方法和系统。所述方法包括下列步骤:步骤根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型;根据输入的盲文句子B,列出其对应的所有候选汉语句子S;利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B),取P(S|B)值最大的对应的汉语词串的序列S=s1s2...sm作为最终汉语句子输出。其能够有效利用汉语盲文自身特征,提高盲文转换为汉字的正确率。CN1025693ACCNN110215669302156696A权利要求书1/3页1.一种盲文输入方法,其特征在于,所述方法,包括下列步骤:步骤100.根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型;步骤200.根据输入的盲文句子B,列出其对应的所有候选汉语句子S;步骤300.利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B),取P(S|B)值最大的对应的汉语词串的序列S=s1s2...sm作为最终汉语句子输出。2.根据权利要求1所述的盲文输入方法,其特征在于,所述步骤100,包括下列步骤:步骤110.利用已有真实盲文语料的训练方法,获取汉语词串为S时对应的盲文B的分词连写概率P(B|S):其中,P(bi|si)表示汉语词串si在分词连写规则下对应一个盲文词bi的概率;步骤120.根据N-gram语言模型,获取汉语词概率P(S)P(S)=P(w1w2...wT)=P(w1)P(w2|w1)...P(wi|wi-n+1wi-n+2...wi-1)...P(wT|wT-n+1wT-n+2...wT-1)(i=1…T),其中的N-gram概率P(wi|wi-n+1wi-n+2...wi-1)通过大量的文本训练得到;步骤130.根据所述分词连写概率P(B|S)和所述汉语词概率P(S),利用贝叶斯公式构造盲汉转换模型。3.根据权利要求2所述的盲文输入方法,其特征在于,所述P(bi|si)值的估算采用如下三种方法:a.0-1规则法假设共有K条规则r1,r2,...,rK,若汉语词串si满足规则rj,记作R(s,rj)=True,否则记作R(s,rj)=False;采用0,1两个值定义分词连写概率,即当满足任一条规则时,定义其概率值为1,否则为0。b.α规则法引入一个参数α,令采用α,1-α两个值定义分词连写概率;c.逐条规则统计法对不同的规则采用不同的α值,对于规则rj,j=1,2,...,K,分别估计αj;1:在训练集中,统计解码时所有规则rj认为可连写的串,将串的个数记为cr(j);2:统计这cr个串中实际被连写的串的个数,记为ci(j);3:计算αj的估计值4.根据权利要求3所述的盲文输入方法,其特征在于,b中,所述参数α的值的选取有两种方法:方法一:采用一个开发集调试,变换参数值,寻找使盲-汉转换性能最好的参数值;2CCNN110215669302156696A权利要求书2/3页方法二:采用一个训练集,在训练集上直接估计α的值,估计方法如下:1:在训练集中,统计解码时所有规则认为可连写的串,将串的个数记为cr;2:统计这cr个串中实际被连写的串的个数,记为ct;3:计算α的估计值5.根据权利要求1所述的盲文输入方法,其特征在于,在步骤200中,利用盲文中的声调信息,筛除声调不相符的候选汉语句子。6.根据权利要求1所述的盲文输入方法,其特征在于,在步骤200中,采用基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果,当后文中有未标调词出现时,先和已经记录的标调词比较盲文字符是否相同,若相同,则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。7.根据权利要求1所述的盲文输入方法,其特征在于,所述步骤300之后,包括下列步骤:步骤400.根据自然语言规则对所述最终汉字句子进行修改,并将修改的结果存入缓冲区作为自适应语料,建立基于cache的自适应模型,对盲汉转换模型进行调整,得到优化的盲汉转换模型。8.一种盲文输入系统,其特征