预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761175A(43)申请公布日2021.12.07(21)申请号202110139483.3G06K9/62(2006.01)(22)申请日2021.02.01(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人李浩然(74)专利代理机构中科专利商标代理有限责任公司11021代理人王文思(51)Int.Cl.G06F16/34(2019.01)G06F16/35(2019.01)G06F40/216(2020.01)权利要求书2页说明书9页附图5页(54)发明名称文本处理方法、装置、电子设备和存储介质(57)摘要本公开提供了一种文本处理方法、装置、电子设备和存储介质,应用于文本处理技术领域,包括:获取商品的介绍文本,该介绍文本包括多个句子,将介绍文本划分为多个部分,并确定多个部分的每个部分的中心句,在每个部分中,按照随机变量P~E(λ)进行采样,得到每个部分对应的采样句,将每个部分对应的采样句进行合并,得到输入文本。CN113761175ACN113761175A权利要求书1/2页1.一种文本处理方法,包括:获取商品的介绍文本,所述介绍文本包括多个句子;将所述介绍文本划分为多个部分,并确定所述多个部分的每个部分的中心句;在所述每个部分中,按照随机变量P~E(λ)进行采样,得到所述每个部分对应的采样句,其中,λ=1/进行采样的部分中的句子数量,P表示取与所述部分的中心句距离排序为i的句子的概率,E(·)表示指数分布;将所述每个部分对应的采样句进行合并,得到输入文本,所述输入文本用于生成所述商品的摘要。2.根据权利要求1所述的方法,所述确定所述多个部分的每个部分的中心句包括:在所述每个部分中,随机获取所述部分中的任意一个句子作为对应的中心句。3.根据权利要求1所述的方法,所述确定所述多个部分的每个部分的中心句包括:计算所述每个部分包括的句子两两之间的相似度,在所述每个部分中,计算每个句子分别与其它句子的相似度的和,得到所述每个部分中每个句子的总相似度;在所述每个部分中,选取总相似度最高的句子作为对应的中心句。4.根据权利要求1所述的方法,所述将所述介绍文本划分为多个部分包括:利用聚类算法,将所述多个句子中的至少部分句子分割为所述多个部分。5.根据权利要求1至4任意一项所述的方法,还包括:获取基于所述输入文本得到的所述商品的多个摘要;根据所述多个摘要,构建多个训练样本,每个所述训练样本包括两个不同的摘要,所述两个不同的摘要中的一个摘要作为预设摘要生成模型的输入,另一个摘要作为所述摘要生成模型的输出;利用所述多个训练样本,训练所述摘要生成模型,得到训练好的摘要生成模型,所述训练好的摘要生成模型用于根据所述商品的多个摘要中的任意一个摘要,生成与所述商品的多个摘要相同或不同的所述商品的摘要。6.根据权利要求5所述的方法,还包括:将所述商品的多个摘要中的任意一个摘要输入所述训练好的摘要生成模型,生成与所述商品的多个摘要相同或不同的所述商品的摘要。7.根据权利要求5所述的方法,所述摘要生成模型为基于RNN、CNN或Transformer的sequence‑to‑sequence模型。8.一种文本处理装置,包括:获取模块,用于获取商品的介绍文本,所述介绍文本包括多个句子;划分模块,用于将所述介绍文本划分为多个部分;确定模块,用于确定所述每个部分的中心句;采样模块,用于在所述每个部分中,按照随机变量P~E(λ)进行采样,得到所述每个部分对应的采样句,其中,λ=1/进行采样的部分中的句子数量,P表示取与所述部分的中心句距离排序为i的句子的概率,E(·)表示指数分布;合并模块,用于将所述每个部分对应的采样句进行合并,得到输入文本,所述输入文本用于生成所述商品的摘要。2CN113761175A权利要求书2/2页9.根据权利要求8所述的装置,还包括:生成模块,用于基于所述输入文本,生成所述商品的多个摘要;构建模块,用于根据所述多个摘要,构建多个训练样本,每个所述训练样本包括两个不同的摘要,所述两个不同的摘要中的一个摘要作为预设摘要生成模型的输入,另一个摘要作为所述摘要生成模型的输出;训练模块,用于利用所述多个训练样本,训练所述摘要生成模型,得到训练好的摘要生成模型,所述训练好的摘要生成模型用于根据所述商品的多个摘要中的任意一个摘要,生成与所述商品的多个摘要相同或不同的所述商品的摘要。10.一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7