预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108845982A(43)申请公布日2018.11.20(21)申请号201711293044.8(22)申请日2017.12.08(71)申请人昆明理工大学地址650093云南省昆明市五华区学府路253号(72)发明人龙华李康康邵玉斌(51)Int.Cl.G06F17/27(2006.01)权利要求书3页说明书9页附图1页(54)发明名称一种基于词的关联特征的中文分词方法(57)摘要本发明涉及一种基于词的关联特征的中文分词方法,属于信息处理技术领域。本发明从文本库中选出需要处理的文本,并对文本库进行预处理,包括去符号并使其形成语句,利用去符号后的语句构建语料库。采用前后拼接词的分词方法,对步骤a1中的语料库进行分词,形成分词碎片。采用二元切分前后词拼接,三元切分前后词拼接,四元切分前后词拼接方法,形成一个二元候选词库,三元候选词库和四元候选词库。对统计好了的词频的候选词设定一个词频门限,并对其进行判决,满足此判决的保留,形成新的语料库。CN108845982ACN108845982A权利要求书1/3页1.一种基于词的关联特征的中文分词方法,其特征在于:a、从文本库中选出需要处理的文本,并对文本库进行预处理,包括去符号并使其形成语句,利用去符号后的语句构建语料库;b、采用前后拼接词的分词方法,对步骤1中的语料库进行分词,形成分词碎片;c、采用二元切分前后词拼接方法、三元切分前后词拼接方法、四元切分前后词拼接方法,形成二元候选词库、三元候选词库和四元候选词库;d、对二元候选词库、三元候选词库和四元候选词库中的二元候选词,三元候选词,四元候选词进行词频统计;e、对统计好词频的候选词设定一个词频门限,并对其进行判决,满足此门限的候选词保留,形成新的语料库,若不满足此门限的候选词则删除;f、计算出步骤5处理后的语料库中的候选词的自由度和凝合度,并给定所有候选词一个统一的自由度和凝合度的门限,并进行判决,满足判决的候选词保留,若不满足此判决的候选词则删除;g、采用分词过滤方法,在对筛选出来的三元候选词和四元候选词进行进一步的过滤,形成新的词库。2.根据权利要求1所述的基于词的关联特征的中文分词方法,其特征在于:所述前后拼接词方法是指对一句中文从第一个字开始进行连续的切割分词,将其所有成词词语切割出来,具体为:对于一个中文文本所包含的文本内容假设为:{ai,ai+1,ai+2,ai+3,ai+4,ai+5.......ai-1+n,ai+n},其中,ai表示为文本中的一个字符,n∈N;采用二元切分前后词拼接方法对文本集合进行二元切分拼接处理,得到处理结果二元文本片段集合,为:{(aiai+1),(ai+1ai+2),(ai+2ai+3),(ai+3ai+4),ai+5.......(ai-1+nai+n)};采用三元切分前后词拼接方法对文本集合进行三元切分拼接处理,得到处理结果三元文本片段集合,为:{(aiai+1),(ai+1ai+2),(ai+2ai+3),(ai+3ai+4),ai+5.......(ai-1+nai+n)};采用四元切分前后词拼接方法对文本集合进行四元切分拼接处理,得到处理结果四元文本片段集合,为:{(aiai+1ai+2ai+3),(ai+1ai+2ai+3ai+4),(ai+2ai+3ai+4ai+5).......(ai-3+nai-2+nai-1+nai+n)}。3.根据权利要求1所述的基于词的关联特征的中文分词方法,其特征在于:所述自由度是指:当一个文本片段出现在各种不同的文本集中,且具有左邻字集合和右邻字集合,左邻字集合是指出现在文本片段左边相邻的字符的集合,右邻字集合是指出现在文本片段右边相邻的字符的集合,通过计算左邻字集合和右邻字集合的信息熵获取一个文本片段的信息熵,取左邻字集合和右邻字集合中较小信息熵作为自由度。4.根据权利要求3所述的基于词的关联特征的中文分词方法,其特征在于:所述自由度为得到的文本片段集合中,当一个文本片段能够出现在各种不同的文本集中,且具有左邻字集合和右邻字集合,通过计算左邻字集合和右邻字集合的信息熵获取一个文本片段的信息熵H,即,H=min{s',s”},H表示候选词的自由度,S'表示候选词的右熵,s”为候选词的左熵,取左邻字集合和右邻字集合中较小信息熵作为2CN108845982A权利要求书2/3页自由度。5.根据权利要求1所述的基于词的关联特征的中文分词方法,其特征在于:所述凝合度是指在一个文本中,一个新词单独出现的概率高于其组合词的概率的乘积,即P(AB)>P(A)P(B),令取最小的M为凝合度,其中AB表示一个新词,P(AB)表示新词在文本中出现的概率,A和B分别指代一个组合词,P(A)