预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共30页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114968240A(43)申请公布日2022.08.30(21)申请号202210617449.7(22)申请日2022.06.01(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人朱安杰(74)专利代理机构北京国昊天诚知识产权代理有限公司11315专利代理师付先智(51)Int.Cl.G06F8/38(2018.01)G06F8/41(2018.01)G06F16/958(2019.01)权利要求书4页说明书16页附图9页(54)发明名称模型预训练方法及装置、HTML页面处理方法及装置(57)摘要本说明书实施例提供了模型预训练方法及装置、HTML页面处理方法及装置,其中,一种模型预训练方法包括:对训练样本中的HTML代码进行预处理,获得HTML代码特征;将所述HTML代码特征和所述训练样本中的页面图像输入待训练模型进行特征处理,输出特征处理结果;所述HTML代码和所述页面图像对应同一HTML页面;所述待训练模型包含嵌入层、编码器,所述嵌入层对所述HTML代码特征和所述页面图像进行特征转换,输出代码特征向量和图像特征向量,所述编码器对所述代码特征向量和所述图像特征向量进行融合计算,输出所述特征处理结果;基于所述特征处理结果执行对所述待训练模型进行预训练的至少一个预训练任务。CN114968240ACN114968240A权利要求书1/4页1.一种模型预训练方法,包括:对训练样本中的HTML代码进行预处理,获得HTML代码特征;将所述HTML代码特征和所述训练样本中的页面图像输入待训练模型进行特征处理,输出特征处理结果;所述HTML代码和所述页面图像对应同一HTML页面;所述待训练模型包含嵌入层、编码器,所述嵌入层对所述HTML代码特征和所述页面图像进行特征转换,输出代码特征向量和图像特征向量,所述编码器对所述代码特征向量和所述图像特征向量进行融合计算,输出所述特征处理结果;基于所述特征处理结果执行对所述待训练模型进行预训练的至少一个预训练任务。2.根据权利要求1所述的模型预训练方法,所述对训练样本中的HTML代码进行预处理,获得HTML代码特征,包括:基于所述HTML代码构建DOM树,并对所述DOM树进行剪枝处理,获得剪枝DOM树;对所述剪枝DOM树包含的节点进行归类处理获得归类DOM树,并确定所述归类DOM树包含的归类节点的节点特征,作为所述HTML代码特征。3.根据权利要求2所述的模型预训练方法,所述对所述DOM树进行剪枝处理,包括:针对所述DOM树包含的任一节点,检测所述节点对应的元素是否为关键元素;若否,则将所述节点从所述DOM树包含的节点中删除。4.根据权利要求2所述的模型预训练方法,所述对所述剪枝DOM树包含的节点进行归类处理获得归类DOM树,包括:根据所述剪枝DOM树包含的节点对应元素的元素特征,确定所述节点的归类类别;基于所述节点的归类类别更新所述节点在所述剪枝DOM树中的节点标识,获得所述归类DOM树。5.根据权利要求4所述的模型预训练方法,所述确定所述归类DOM树包含的归类节点的节点特征,包括:若所述归类节点为非文本节点,通过对所述归类DOM树进行深度优先遍历,获得所述非文本节点的节点编号;确定所述非文本节点对应的元素在所述页面图像中的图像坐标信息,并获取所述非文本节点的父节点的父节点编号;将所述节点编号、所述图像坐标信息和父节点编号作为所述非文本节点的节点特征。6.根据权利要求5所述的模型预训练方法,若所述归类节点为文本节点,执行如下操作:通过对所述归类DOM树进行深度优先遍历,获得所述文本节点的节点编号;确定所述文本节点在所述页面图像中的图像坐标信息,并获取所述文本节点的父节点的父节点编号;将所述文本节点对应的元素的文本信息拆分为文本token并分配token编号,以及获取所述元素的文本特征;将所述节点编号、所述图像坐标信息、所述父节点编号、所述token编号和所述文本特征作为所述文本节点的节点特征。7.根据权利要求1所述的模型预训练方法,所述嵌入层包括代码特征编码器和图像特征编码器;2CN114968240A权利要求书2/4页所述对所述HTML代码特征和所述页面图像进行特征转换,包括:将所述HTML代码特征输入所述代码特征编码器进行代码特征编码处理,获得所述代码特征向量,以及,将所述页面图像输入所述图像特征编码器进行图像编码处理,获得所述图像特征向量。8.根据权利要求1所述的模型预训练方法,所述对所述代码特征向量和所述图像特征向量进行融合计算,包括:对所述代码特征向量和所述图像特征向量进行自注意力计算,将获得的自注意力向量作为所述特征处理结果。9.根据权利要求1