预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113626583A(43)申请公布日2021.11.09(21)申请号202110796881.2(22)申请日2021.07.14(71)申请人北京海泰方圆科技股份有限公司地址100094北京市海淀区东北旺西路8号中关村软件园9号楼国际软件大厦E座一层、二层(72)发明人杨冬王学进安晓江(74)专利代理机构北京新知远方知识产权代理事务所(普通合伙)11397代理人马军芳张艳(51)Int.Cl.G06F16/34(2019.01)G06K9/62(2006.01)G06F40/289(2020.01)G06F40/216(2020.01)权利要求书2页说明书11页附图3页(54)发明名称文本摘要标注方法、装置、电子设备和存储介质(57)摘要本申请实施例中提供了一种文本摘要标注方法、装置、电子设备和存储介质,所述方法包括:首先获取待标注的摘要标注文本;然后计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数;根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注,从而可以自动为待标注的摘要标注文本添加摘要数据标注,无需人工标注,提高文本的标注效率的同时降低了标注的人力成本,另外,自动标注的方式也能统一摘要标注的标准,避免由于摘要标注的标准不统一影响模型的训练效果。CN113626583ACN113626583A权利要求书1/2页1.一种文本摘要标注方法,其特征在于,所述方法包括:获取待标注的摘要标注文本;计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数,其中,所述目标摘要标注分数表征句子在所述待标注的摘要标注文本中的重要程度;根据所述目标摘要标注分数的大小从所述待标注的摘要标注文本中选取预设数量的句子作为所述待标注的摘要标注文本的摘要数据标注。2.根据权利要求1所述的方法,其特征在于,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数,包括:根据所述待标注的摘要标注文本中句子的位置、句子之间的词袋重合度以及句子相似度,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数。3.根据权利要求1或2所述的方法,其特征在于,计算所述待标注的摘要标注文本的每一个句子的目标摘要标注分数,包括:针对所述待标注的摘要标注文本的每一个待计算的句子,将所述待标注的摘要标注文本中除所述待计算的句子之外的其他句子作为与所述待计算的句子进行比较的句子;根据所述待计算的句子的位置、词袋重合度及句子相似度,计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数;从多个初始摘要标注分数中选择最高的初始摘要标注分数作为所述待计算的句子的目标摘要标注分数。4.根据权利要求3所述的方法,其特征在于,根据所述待计算的句子的位置、词袋重合度及句子相似度计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数,包括:计算所述待计算的句子与每一个比较的句子之间的词袋重合度;计算所述待计算的句子与每一个比较的句子之间的句子相似度;根据所述待计算的句子在所述待标注的摘要标注文本中的位置获得所述待计算的句子的位置分值;根据所述待计算的句子的位置分值、所述待计算的句子与每一个比较的句子之间的词袋重合度及句子相似度计算所述待计算的句子与每一个比较的句子的初始摘要标注分数,获得所述待计算的句子的多个初始摘要标注分数。5.根据权利要求4所述的方法,其特征在于,计算所述待计算的句子与每一个比较的句子之间的词袋重合度,包括:对所述待计算的句子及所述比较的句子进行分词处理,并去除所述待计算的句子及所述比较的句子中的停用词,获得所述待计算的句子的关键词及所述比较的句子的关键词;针对每一个比较的句子,通过预先训练好的词向量模型计算所述待计算的句子的各个关键词与所述比较的句子的各个关键词之间的词语相似度;判断所述词语相似度是否大于预设阈值,若大于,则判定两个关键词相同;计算所述待计算的句子与所述比较的句子相同的关键词的数量;根据所述待计算的句子与所述比较的句子相同的关键词的数量、所述待计算的句子的词语总数量、所述比较的句子的词语总数量计算所述待计算的句子与所述比较的句子之间2CN113626583A权利要求书2/2页的词袋重合度。6.根据权利要求4所述的方法,其特征在于,计算所述待计算的句子与每一个比较的句子之间的句子相似度,包括:针对每一个比较的句子,通过预先训练好的句子相似度模型对所述待计算的句子和所述比较的句子进行运算,获得所述待计算的句子与所述比较的句子之间的句子相似度。7.根据权利要求4所述的方法,其特征在于,根据所述待计算的句