预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110134792A(43)申请公布日2019.08.16(21)申请号201910431256.0(22)申请日2019.05.22(71)申请人北京金山数字娱乐科技有限公司地址100085北京市海淀区小营西路33号金山软件大厦2层西区申请人成都金山互动娱乐科技有限公司(72)发明人李长亮樊骏锋汪美玲唐剑波(74)专利代理机构北京智信禾专利代理有限公司11637代理人吴肖肖(51)Int.Cl.G06F16/35(2019.01)G06F16/36(2019.01)G06F17/27(2006.01)权利要求书4页说明书18页附图4页(54)发明名称文本识别方法、装置、电子设备以及存储介质(57)摘要本说明书提供文本识别方法、装置、电子设备以及存储介质,其中所述文本识别方法包括:获取多个文本的文本集;提取文本集中文本的主题关键词,并获取从文本集中至少一个文本中提取的实际主题关键词;确定主题关键词在文本集中每个文本的第一分布,以及实际主题关键词在文本集中每个文本的第二分布;将携带第一分布和第二分布的文本集中文本输入分类器进行识别,获得文本集中文本的关键句和非关键句;通过文本识别方法,能够快速准确的获取文本的关键句和非关键句,通过对文本的非关键句进行清洗,方便了对文本的关键句进行标注,提高了知识图谱的构建效率,并通过保留文本的关键句,方便了用户在查阅文本时能够快速的了解文本的主要内容。CN110134792ACN110134792A权利要求书1/4页1.一种文本识别方法,其特征在于,包括:获取多个文本的文本集;提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词;确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布;将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。2.根据权利要求1所述的文本识别方法,其特征在于,所述提取所述文本集中每个文本的主题关键词,包括:通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,输出关键词并作为所述主题关键词。3.根据权利要求1所述的文本识别方法,其特征在于,所述提取所述文本集中每个文本的主题关键词,包括:通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;计算所述关键词在对应的文本匹配的频次,以及所述关键词在所述文本集中每个文本的逆向关键词频率;根据所述频次与所述逆向关键词频率二者的乘积确定所述关键词的关键词评分;将所述关键词评分大于关键词评分阈值的关键词作为所述主题关键词。4.根据权利要求1所述的文本识别方法,其特征在于,所述获取从所述文本集中至少一个文本中提取的实际主题关键词,包括:从所述文本集中随机选取至少一个文本,随机提取的所述至少一个文本通过人工提取相应的实际主题关键词;获取所述人工提取的所述至少一个文本所述实际主题关键词。5.根据权利要求1所述的文本识别方法,其特征在于,所述确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布,包括:根据所述每个文本中语句包含的主题关键词,生成所述每个文本在语句层面的关键词分布矩阵,作为所述第一分布;根据所述每个文本中语句包含的实际主题关键词,生成所述每个文本在语句层面的实际关键词分布矩阵,作为所述第二分布。6.根据权利要求5所述的文本识别方法,其特征在于,所述分类器,采用如下方式进行构建:根据所述关键词分布矩阵与所述每个文本中包含的语句的关联关系、预设分类规则以及所述每个文本中包含的语句的对应的权重,构建所述分类器;相应的,执行所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类2CN110134792A权利要求书2/4页器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤;所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句,包括:将携带所述主题关键词分布矩阵和所述实际主题关键词分布矩阵的所述文本集中的文本输入所述分类器进行关键句和非关键句识别,获得所述文本集中文本的关键句和非关键句。7.根据权利要求1所述的文本识别方法,其特征在于,所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤执行之后,还包括: