预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113609862A(43)申请公布日2021.11.05(21)申请号202110124953.9(22)申请日2021.01.29(71)申请人腾讯科技(深圳)有限公司地址518000广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人李天时(74)专利代理机构广州嘉权专利商标事务所有限公司44205代理人梁嘉琦谭英强(51)Int.Cl.G06F40/30(2020.01)G06F40/289(2020.01)G06N20/20(2019.01)权利要求书3页说明书16页附图7页(54)发明名称文本信息抽取方法、模型训练方法、装置及存储介质(57)摘要本申请公开了一种文本信息抽取方法、模型训练方法、文本信息抽取装置、模型训练装置及存储介质,将获取的待处理文本输入至第一机器学习模型,提取待处理文本的第一文本特征信息,通过第二机器学习模型对待处理文本的多个文本属性信息进行交叉组合后得到多个文本交互属性信息,和文本属性信息进行组合得到组合属性信息。通过将组合属性信息分别与各个第一文本特征信息进行拼接后进行分类处理,确定目标文本信息。通过引入多个文本属性信息并对多个文本属性信息进行交叉组合,能够加强不同文本属性信息之间的交互,以识别到最有区分性的特征组合表示,同时能够丰富候选预测结果的多样性,能有效辅助对文本信息的抽取,提高文本信息抽取的准确性。CN113609862ACN113609862A权利要求书1/3页1.一种文本信息抽取方法,其特征在于,包括以下步骤:获取待处理文本;获取所述待处理文本的多个文本属性信息;将所述待处理文本输入至第一机器学习模型,对所述待处理文本进行特征提取得到多个第一文本特征信息;将多个所述文本属性信息输入至第二机器学习模型,对输入至所述第二机器学习模型的各个所述文本属性信息进行交叉组合,得到多个文本交互属性信息,所述第二机器学习模型将多个所述文本属性信息和多个所述文本交互属性信息进行组合,得到组合属性信息;将所述组合属性信息分别与各个所述第一文本特征信息进行拼接,得到多个第二文本特征信息;将多个所述第二文本特征信息输入至分类模型进行分类处理,得到分类预测结果,以确定所述待处理文本的目标文本信息。2.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述对输入至所述第二机器学习模型的各个所述文本属性信息进行交叉组合,得到多个文本交互属性信息,包括:对输入至所述第二机器学习模型的各个所述文本属性信息两两交叉组合,得到多个所述文本交互属性信息。3.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述第二机器学习模型将多个所述文本属性信息和多个所述文本交互属性信息进行组合,得到组合属性信息,包括:所述第二机器学习模型将多个所述文本属性信息与多个所述文本交互属性信息进行加权,得到组合属性信息。4.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述获取所述待处理文本的多个文本属性信息,包括:将所述待处理文本输入至第三机器学习模型进行文本属性信息提取,得到所述待处理文本的多个文本属性信息。5.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述多个文本属性信息,包括文本属性类型为文本类目的第一文本属性信息,以及文本属性类型为候选词类目的第二文本属性信息。6.根据权利要求2至5任意一项所述的一种文本信息抽取方法,其特征在于,所述文本属性信息的文本属性类型为预先设定。7.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述将所述待处理文本输入至第一机器学习模型,对所述待处理文本进行特征提取得到多个第一文本特征信息,包括:对所述待处理文本进行字符处理得到多个词组;将多个所述词组输入至第一机器学习模型,对多个所述词组进行语义识别,得到多个第一文本特征信息,其中,所述第一文本特征信息为候选词特征向量。8.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述将多个所述第二文本特征信息输入至分类模型进行分类处理,得到分类预测结果,以确定所述待处理文本的2CN113609862A权利要求书2/3页目标文本信息,包括:将各个所述第二文本特征信息输入归一化指数分类器进行分类,得到多个分类预测结果;从所述分类预测结果中确定符合阈值条件的目标分类,根据所述目标分类确定所述待处理文本的目标文本信息。9.一种模型训练方法,其特征在于,包括以下步骤:获取训练数据,所述训练数据包括训练文本和标注信息,所述标注信息用于标注所述训练文本的目标文本信息;获取所述训练文本的多个文本属性信息;将所述训练文本输入至第一机器学习模型,对所述训练文本进行特征提取得到多个第一训练文本特征信息;将多个所述文本属性信息输入至第二机器学习模型,对输