预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110738050A(43)申请公布日2020.01.31(21)申请号201910984742.5(22)申请日2019.10.16(71)申请人北京小米智能科技有限公司地址100085北京市海淀区清河朱房路临66号F栋2单元1层101-103室(72)发明人齐保元史亮鲁骁唐可欣王斌(74)专利代理机构北京名华博信知识产权代理有限公司11453代理人白莹(51)Int.Cl.G06F40/289(2020.01)G06F40/295(2020.01)权利要求书4页说明书14页附图5页(54)发明名称基于分词和命名实体识别的文本重组方法及装置、介质(57)摘要本公开是关于一种基于分词和命名实体识别的文本重组方法及装置、介质,涉及自然语言处理领域。本公开提供的一种基于分词和命名实体识别的文本重组方法,包括:接收到待处理的文本后,根据文本中每个词语的属性信息,以及文本中每个命名实体的属性信息,确定文本中每个字符的属性信息;并根据每个字符的属性信息,确定每字符与其相邻位置的字符之间的关联关系,根据所述关联关系对所述文本进行重组,得到重组结果集,重组结果集中包括构成文本的所有词语和/或命名实体的属性信息。本公开的技术方案对待处理的文本进行重新组合与渲染,实现多样性标注的输出,再通过建立字符的属性信息中的权重,来实现便于用户习惯的阅读渲染方式。CN110738050ACN110738050A权利要求书1/4页1.一种基于分词和命名实体识别的文本重组方法,其特征在于,包括:接收到待处理的文本后,根据所述文本经过分词操作得到的分词结果集中每个词语的属性信息,以及所述文本经过命名实体识别操作得到的命名实体结果集中每个命名实体的属性信息,确定所述文本中每个字符的属性信息;根据所述文本中每个字符的属性信息,确定所述文本中每字符与其相邻位置的字符之间的关联关系,根据所确定的关联关系对所述文本进行重组,得到重组结果集,所述重组结果集中包括构成所述文本的所有词语和/或命名实体的属性信息;其中,重组得到的每个词语或命名实体的属性信息是由组成该词语或命名实体的所有字符的属性信息合并得到的。2.根据权利要求1所述的方法,其特征在于,所述分词结果集中每个词语的属性信息,所述命名实体结果集中每个命名实体的属性信息,以及所述文本中每个字符的属性信息,至少包括如下任一种或几种:内容,开始位置,结束位置,类型,标识,权重。3.根据权利要求2所述的方法,其特征在于,所述字符的属性信息中的权重,小于所述词语和命名实体的属性信息中的权重;所述词语的属性信息中的权重小于或等于所述命名实体的属性信息中的权重。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述文本经过分词操作得到的分词结果集中每个词语的属性信息,以及所述文本经过命名实体识别操作得到的命名实体结果集中每个命名实体的属性信息,确定所述文本中每个字符的属性信息,包括:基于所述命名实体结果集中每个命名实体的属性信息,以及所述文本中每个字符与所述命名实体结果集中每个命名实体在所述文本中的位置关系,设置所述文本中每个字符的属性信息;基于所述分词结果集中每个词语的属性信息,以及所述文本中每个字符与所述分词结果集中每个词语在所述文本中的位置关系,设置所述文本中每个字符的属性信息;其中,基于所述命名实体结果集和所述分词结果集,为同一字符设置出多条不相同的属性信息时,将多条不相同的属性信息中权重取值最大属性信息确定为该字符的属性信息。5.根据权利要求1所述的方法,其特征在于,所述根据所述文本中每个字符的属性信息,确定所述文本中每字符与其相邻位置的字符之间的关联关系,根据所确定的关联关系对所述文本进行重组,得到重组结果集,包括:将所述文本中所有字符依次与上一个字符的属性信息进行对比;当对比结果为存在交集,则将当前字符与上一字符划分为同一词语或命名实体;当对比结果为不存在交集,则确定上一词语或命名实体划分完毕,确定当前字符属于新的词语或命名实体;按照上述方式遍历所述文本的所有字符后,得到所述文本的重组结果集。6.根据权利要求1或5所述的方法,其特征在于,所述方法还包括:接收到所述文本后,对所述文本,进行分词操作,得到一个或多个分词结果集,其中,每个分词结果集中包括构成所述文本的所有词语的属性信息。7.根据权利要求6所述的方法,其特征在于,所述对所述文本,进行分词操作,包括:利用分词工具对所述文本进行分词操作;2CN110738050A权利要求书2/4页其中,利用不同的分词工具得到多个分词结果集。8.根据权利要求6所述的方法,其特征在于,所述方法还包括:接收到所述文本后,对所述文本,进行命名实体识别操作,得到一个或多个命名实体结果集;其中,每个命名实体结