预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115841114A(43)申请公布日2023.03.24(21)申请号202211562370.5G06N3/0464(2023.01)(22)申请日2022.12.07(71)申请人上海绘话智能科技有限公司地址200000上海市浦东新区中国(上海)自由贸易试验区郭守敬路498号8幢19号楼4层19412室(72)发明人邵珠全(74)专利代理机构上海互顺专利代理事务所(普通合伙)31332专利代理师韦志刚曹月明(51)Int.Cl.G06F40/284(2020.01)G06F40/216(2020.01)G06N3/049(2023.01)G06N3/08(2023.01)权利要求书2页说明书6页附图2页(54)发明名称一种基于词的短文本摘要抽取方法(57)摘要本发明属于NLP领域下文本摘要抽取技术领域,且公开了一种基于词的短文本摘要抽取方法,包括抽取模型和词序模型,所述词序模型步骤如下:第一步:数据标注一;S1.1:选择电销场景下50万对话短文本数据,人工审核纠正每句话的词语顺序;S1.2:使用jieba分词,原始词语顺序的标签为1,然后对每一句话都枚举所有的词语组合,标签为0,最后人工审核纠正所有的标签数据;第二步:数据预处理一。本发明通过抽取模型网络结构中使用膨胀卷积神经网络(DilatedConvolutionNeuralNetwork,DCNN),且膨胀系数按照1、2、4、1的顺序设定,使模型能够尽可能多的捕捉文本信息,并增加了一个词序模型,提高了摘要的有效性和连续性,从而完美解决了抽取式摘要的不连贯问题。CN115841114ACN115841114A权利要求书1/2页1.一种基于词的短文本摘要抽取方法,包括抽取模型和词序模型,其特征在于:所述词序模型步骤如下:第一步:数据标注一;S1.1:选择电销场景下50万对话短文本数据,人工审核纠正每句话的词语顺序;S1.2:使用jieba分词,原始词语顺序的标签为1,然后对每一句话都枚举所有的词语组合,标签为0,最后人工审核纠正所有的标签数据;第二步:数据预处理一;第三步:模型构建一,将高位数据降维到2维;第四步:模型评估一;S4.1:训练过程中,每当训练集跑完100个batch,都跑一次验证集,对验证集的预测标签和真实标签计算F1-score和loss;S4.2:当F1-score在10个batch之后都不提升的时候,就提前结束模型训练,这时候认为保存的最后一版模型为最优的模型,用最优的模型跑测试集数据,计算F1-score,当前的F1-score值就是对模型的评分;所述抽取模型步骤如下:第一步:数据标注二,选择电销场景下20万对话短文本数据,根据原文内容人工总结出简洁的摘要文本;第二步:数据预处理二;第三步:模型构建二,使用膨胀系数按照1、2、4、1顺序设定的膨胀卷积神经网络捕捉数据信息;第四步:模型评估二;S4.1:设置一个阈值来判断当前词是否为抽取的摘要内容,若评分大于阈值,则认为该词被抽取出来,否则则抛弃;S4.2:把所有大于阈值的词,穷举出所有的组合输入到词序模型中,取评分最高的词序列按顺序拼接起来作为摘要;S4.3:摘要和原文做rouge评分,用所有的rouge评分的平均值评估当前模型的好坏,rouge评分越接近于1越好。2.根据权利要求1所述的一种基于词的短文本摘要抽取方法,其特征在于:所述数据预处理一具体步骤如下:第一步:构建词典,把所有的训练集分词去重后的词做为词典;第二步:统一文本维度,使用<PAD>符号把所有的文本都padding成统一的max_length维度,这里选择训练集中最多的词语个数做为max_length;第三步:根据词典把训练数据表示成索引,循环遍历每句文本,从词典中查找是否存在,若存在,则获取词典中的索引,否则获取<UNK>的索引,<UNK>表示所有的未登录词;第四步:生成数据迭代器,把数据分为多个批次送入到模型中去训练,每个批次的数据个数为64,生成迭代器的过程中,同时把数据添加到GPU中。3.根据权利要求1所述的一种基于词的短文本摘要抽取方法,其特征在于:所述模型构建一网络结构如下:第一层:Embedding2CN115841114A权利要求书2/2页第二层:BILSTM()第三层:Linear();Embedding是向量表示层,第二层是双向长短时记忆神经网络bilstm,Linear()是线性层。4.根据权利要求1所述的一种基于词的短文本摘要抽取方法,其特征在于:所述数据预处理二的具体步骤如下:第一步:在原文中查找人工摘要词语索引,首先分别对摘要和原文进行jieba分词,然后根据滑窗式方法查到摘要所在原文中的中心位置,从中心位置向两侧匹配摘要,匹配成功后则记为