预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108415899A(43)申请公布日2018.08.17(21)申请号201810095381.4(22)申请日2018.01.31(71)申请人北京联合大学地址100101北京市朝阳区北四环东路97号(72)发明人李妍关忠钟经华刘志丽闫嘉(74)专利代理机构北京驰纳智财知识产权代理事务所(普通合伙)11367代理人谢亮(51)Int.Cl.G06F17/27(2006.01)G06F17/24(2006.01)G06F17/25(2006.01)权利要求书1页说明书6页附图7页(54)发明名称一种盲文分词修改方法和系统(57)摘要本发明提供了一种盲文修改方法和系统,其中方法包括:遍历每一行,设置标识;比较基础版本;生成基础数据。本发明能够解决现有利用汉语盲文进行采集、修改管理操作不便、管理效率低的问题,实现替代人工汉语对齐,标注对比和完成修订的工作。可实现多人同平台完成盲文分词标注的修改。CN108415899ACN108415899A权利要求书1/1页1.一种盲文分词修改方法,包括:获取基础版本,其特征在于,还包括以下步骤:步骤1:遍历每一行字符;步骤2:设置标识记号;步骤3:比较所述基础版本,生成基础数据。2.如权利要求1所述的盲文分词修改方法,其特征在于:所述基础版本包括中科院第一版本、中科院第二版本、北理工版本和清华版本中至少一种。3.如权利要求2所述的盲文分词修改方法,其特征在于:所述步骤1包括统计所述基础版本中的汉字和/或标识个数。4.如权利要求3所述的盲文分词修改方法,其特征在于:所述步骤2包括设置所述中科院第一版本中的汉字1和标识1为C1,设置所述中科院第二版本中的汉字2和标识2为C2,设置所述北理工版本中的汉字3和标识3为C3,设置所述清华版本中的汉字4和标识4为C4。5.如权利要求4所述的盲文分词修改方法,其特征在于:所述比较规则为判断C1和C2的大小关系,如果C1<C2,则设置所述标识记号以便下次不再读取汉字2,如果C1>C2,则继续读取汉字2和标记2,如果C1=C2,则继续遍历下一行。6.如权利要求5所述的盲文分词修改方法,其特征在于:所述比较规则为判断C1和C3的大小关系,如果C1<C3,则设置所述标识记号以便下次不再读取汉字3,如果C1>C3,则继续读取下一个字符,如果C1=C3,则继续遍历下一行。7.如权利要求6所述的盲文分词修改方法,其特征在于:所述比较规则为判断C1和C4的大小关系,如果C1<C4,则设置所述标识记号以便下次不再读取汉字4,如果C1>C4,则继续读取下一个字符,如果C1=C4,则继续遍历下一行。8.如权利要求7所述的盲文分词修改方法,其特征在于:所述步骤3包括比较其他学院版本且生成基础数据,如果遍历不到下一行则判断是否有其他文件,有则继续遍历每一行进行比较设置标志记号,无则结束且生成基础数据。9.一种盲文分词修改系统,包括登陆模块和用户管理模块,还包括以下模块:语料库模块:用于使用上述盲文分词修改的方法把生成的基础数据存入语料库;列表背景模块:用于查看对比和/或修改功能;所述列表背景模块是根据指定的语料库进行读取数据然后并且填充到列表;所述登陆模块是根据指定的关联语料库模块进行判断是否存在;所述用户管理模块是根据管理需求进行管理登录模块权限。10.如权利要求9所述的盲文分词修改系统,其特征在于:所述登陆模块具有使用帐号和/或密码登陆和/或验证的功能。2CN108415899A说明书1/6页一种盲文分词修改方法和系统技术领域[0001]本发明涉及汉语盲文分词技术领域,特别涉及一种盲文分词修改方法和系统。背景技术[0002]汉语盲文研究需要专门的语料库支持,汉语盲文语料库的建设就是将我国盲文使用的语言材料进行采集、整理、记录,整体把握盲文符号、词汇、标调等问题的全貌,并进行系统的定量分析。汉语盲文的分词连写既不同于汉语拼音正词法基本规则的分词连写方式,也不同于汉语信息处理领域常用的分词规则。经过科学的选材和标注,对现存的盲文语料进行分词连写的修订,全面的分析现存语料的分词问题,提高盲文分词的一致性,进而促进盲文信息化的发展。[0003]汉语盲文的分词连写是以词汇为单位,词汇之间以空方作为边界。现行盲文的分词连写要求盲文的书写既要符合汉语语法和语言的逻辑性习惯性,又要适当减少零散的单音节词形,以符合盲人摸读习惯,提高摸读效率。由于盲文分词连写的特殊性,导致现行盲文语料在分词连写上存在着很大的分歧。[0004]目前汉语盲文语料库采集,多是在多个txt汉文和盲文进行采集、修改、管理时,操作不便,管理速度慢且效率低。[0005]公开号CN200410070161.4的发明专利申请公开了一种运行于Windows