预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115860136A(43)申请公布日2023.03.28(21)申请号202211518049.7G06F40/117(2020.01)(22)申请日2022.11.30(71)申请人百度国际科技(深圳)有限公司地址518063广东省深圳市南山区粤海街道滨海社区海天一路6号百度国际大厦东塔楼1层(72)发明人王兆吉孙建东史亚冰蒋烨(74)专利代理机构北京易光知识产权代理有限公司11596专利代理师徐升升阎敏(51)Int.Cl.G06N20/00(2019.01)G06F16/22(2019.01)G06F40/174(2020.01)G06F40/186(2020.01)权利要求书3页说明书17页附图4页(54)发明名称数据处理方法、表格处理方法、装置、设备和存储介质(57)摘要本公开提供了数据处理方法、表格处理方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及深度学习以及NLP领域。具体实现方案为:获取多个实体关系数据;基于所述多个实体关系数据,构建多个第一表格;基于所述多个第一表格,得到训练数据集;其中,所述训练数据集用于训练得到表格预训练模型。本公开实施例的技术方案,可以提升表格预训练模型的训练数据的多样性,从而提升表格预训练模型的泛化能力。CN115860136ACN115860136A权利要求书1/3页1.一种数据处理方法,包括:获取多个实体关系数据;基于所述多个实体关系数据,构建多个第一表格;基于所述多个第一表格,得到训练数据集;其中,所述训练数据集用于训练得到表格预训练模型。2.根据权利要求1所述的方法,其中,所述获取多个实体关系数据,包括:在实体描述信息中,提取多个键值对数据;基于所述实体描述信息所描述的实体以及所述多个键值对数据中的每个键值对数据,得到与所述每个键值对数据对应的实体关系数据。3.根据权利要求1或2所述的方法,其中,所述基于所述多个实体关系数据,构建多个第一表格,包括:基于所述多个实体关系数据,确定与M个主语信息分别对应的M个实体关系数据集合,M为大于或等于2的整数;基于所述M个实体关系数据集合,构建多个第一表格。4.根据权利要求3所述的方法,其中,所述基于所述M个实体关系数据集合,构建多个第一表格,包括:在所述M个实体关系数据集合中,确定出具有至少N个相同的谓语信息的K个实体关系数据集合,其中,N为大于或等于1的整数,K为大于或等于2的整数且K小于或等于M;基于所述K个实体关系数据集合所对应的K个主语信息以及所述N个相同的谓语信息,填充表格模板中的表头信息;利用所述K个实体关系数据集合中的宾语信息,填充所述表格模板中的表值区域,得到所述K个主语信息的关系表。5.根据权利要求4所述的方法,其中,所述基于所述M个实体关系数据集合,构建多个第一表格,还包括:将所述K个实体关系数据集合分成L组实体关系数据集合;其中,L为大于或等于2的整数;基于所述L组实体关系数据集合中的每组实体关系数据集合,得到所述每组实体关系数据集合所对应的多个主语信息的关系表;基于所述每组实体关系数据集合所对应的所述关系表进行横向组合,得到横向堆叠表。6.根据权利要求3所述的方法,其中,所述基于所述M个实体关系数据集合,构建多个第一表格,包括:基于与所述M个主语信息中的第i个主语信息对应的实体关系数据集合,构建与所述第i个主语信息对应的实体表;其中,i为小于或等于M的正整数。7.根据权利要求6所述的方法,其中,所述基于所述M个实体关系数据集合,构建多个第一表格,还包括:基于与所述M个主语信息中的每个主语信息对应的实体表进行纵向组合,得到纵向堆叠表。8.根据权利要求1或2所述的方法,其中,所述基于所述多个实体关系数据,构建多个第2CN115860136A权利要求书2/3页一表格,包括:确定多个谓语信息之间的层级关系;基于所述多个谓语信息之间的层级关系,将所述多个谓语信息所对应的多个实体关系数据填充至表格模板,得到层级表。9.根据权利要求1或2所述的方法,还包括:基于所述多个实体关系数据进行X次迭代操作,以确定表格超参数,所述表格超参数包括用于构建所述多个第一表格的至少一个数量参数;其中,X为大于或等于2的整数;其中,所述X次迭代操作中的第j次迭代操作,包括:基于所述多个实体关系数据以及第j‑1次更新的表格超参数,构建多个第三表格;基于所述多个第三表格中的每个第三表格的规模信息,确定所述多个第三表格的规模信息分布情况;基于所述规模信息分布情况,对所述表格超参数进行第j次更新;其中,j为大于或等于1的整数。10.根据权利要求9所述的方法,其中,所述规模信息包括单元格数量、行数、列数、单元格中的字符元素的数量、表格内的字符元素的数量中的至少之一。11.根据权利要