模型预训练方法及装置、HTML页面处理方法及装置-豆柴文库

模型预训练方法及装置、HTML页面处理方法及装置.pdf

2023-05-25

10金币

1.2MB

30页

志信****pp

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共30页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114968240A(43)申请公布日2022.08.30(21)申请号202210617449.7(22)申请日2022.06.01(71)申请人支付宝（杭州）信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人朱安杰(74)专利代理机构北京国昊天诚知识产权代理有限公司11315专利代理师付先智(51)Int.Cl.G06F8/38(2018.01)G06F8/41(2018.01)G06F16/958(2019.01)权利要求书4页说明书16页附图9页(54)发明名称模型预训练方法及装置、HTML页面处理方法及装置(57)摘要本说明书实施例提供了模型预训练方法及装置、HTML页面处理方法及装置，其中，一种模型预训练方法包括：对训练样本中的HTML代码进行预处理，获得HTML代码特征；将所述HTML代码特征和所述训练样本中的页面图像输入待训练模型进行特征处理，输出特征处理结果；所述HTML代码和所述页面图像对应同一HTML页面；所述待训练模型包含嵌入层、编码器，所述嵌入层对所述HTML代码特征和所述页面图像进行特征转换，输出代码特征向量和图像特征向量，所述编码器对所述代码特征向量和所述图像特征向量进行融合计算，输出所述特征处理结果；基于所述特征处理结果执行对所述待训练模型进行预训练的至少一个预训练任务。CN114968240ACN114968240A权利要求书1/4页1.一种模型预训练方法，包括：对训练样本中的HTML代码进行预处理，获得HTML代码特征；将所述HTML代码特征和所述训练样本中的页面图像输入待训练模型进行特征处理，输出特征处理结果；所述HTML代码和所述页面图像对应同一HTML页面；所述待训练模型包含嵌入层、编码器，所述嵌入层对所述HTML代码特征和所述页面图像进行特征转换，输出代码特征向量和图像特征向量，所述编码器对所述代码特征向量和所述图像特征向量进行融合计算，输出所述特征处理结果；基于所述特征处理结果执行对所述待训练模型进行预训练的至少一个预训练任务。2.根据权利要求1所述的模型预训练方法，所述对训练样本中的HTML代码进行预处理，获得HTML代码特征，包括：基于所述HTML代码构建DOM树，并对所述DOM树进行剪枝处理，获得剪枝DOM树；对所述剪枝DOM树包含的节点进行归类处理获得归类DOM树，并确定所述归类DOM树包含的归类节点的节点特征，作为所述HTML代码特征。3.根据权利要求2所述的模型预训练方法，所述对所述DOM树进行剪枝处理，包括：针对所述DOM树包含的任一节点，检测所述节点对应的元素是否为关键元素；若否，则将所述节点从所述DOM树包含的节点中删除。4.根据权利要求2所述的模型预训练方法，所述对所述剪枝DOM树包含的节点进行归类处理获得归类DOM树，包括：根据所述剪枝DOM树包含的节点对应元素的元素特征，确定所述节点的归类类别；基于所述节点的归类类别更新所述节点在所述剪枝DOM树中的节点标识，获得所述归类DOM树。5.根据权利要求4所述的模型预训练方法，所述确定所述归类DOM树包含的归类节点的节点特征，包括：若所述归类节点为非文本节点，通过对所述归类DOM树进行深度优先遍历，获得所述非文本节点的节点编号；确定所述非文本节点对应的元素在所述页面图像中的图像坐标信息，并获取所述非文本节点的父节点的父节点编号；将所述节点编号、所述图像坐标信息和父节点编号作为所述非文本节点的节点特征。6.根据权利要求5所述的模型预训练方法，若所述归类节点为文本节点，执行如下操作：通过对所述归类DOM树进行深度优先遍历，获得所述文本节点的节点编号；确定所述文本节点在所述页面图像中的图像坐标信息，并获取所述文本节点的父节点的父节点编号；将所述文本节点对应的元素的文本信息拆分为文本token并分配token编号，以及获取所述元素的文本特征；将所述节点编号、所述图像坐标信息、所述父节点编号、所述token编号和所述文本特征作为所述文本节点的节点特征。7.根据权利要求1所述的模型预训练方法，所述嵌入层包括代码特征编码器和图像特征编码器；2CN114968240A权利要求书2/4页所述对所述HTML代码特征和所述页面图像进行特征转换，包括：将所述HTML代码特征输入所述代码特征编码器进行代码特征编码处理，获得所述代码特征向量，以及，将所述页面图像输入所述图像特征编码器进行图像编码处理，获得所述图像特征向量。8.根据权利要求1所述的模型预训练方法，所述对所述代码特征向量和所述图像特征向量进行融合计算，包括：对所述代码特征向量和所述图像特征向量进行自注意力计算，将获得的自注意力向量作为所述特征处理结果。9.根据权利要求1

相关资料

模型预训练方法及装置、HTML页面处理方法及装置.pdf

本说明书实施例提供了模型预训练方法及装置、HTML页面处理方法及装置，其中，一种模型预训练方法包括：对训练样本中的HTML代码进行预处理，获得HTML代码特征；将所述HTML代码特征和所述训练样本中的页面图像输入待训练模型进行特征处理，输出特征处理结果；所述HTML代码和所述页面图像对应同一HTML页面；所述待训练模型包含嵌入层、编码器，所述嵌入层对所述HTML代码特征和所述页面图像进行特征转换，输出代码特征向量和图像特征向量，所述编码器对所述代码特征向量和所述图像特征向量进行融合计算，输出所述特征处理结

2023-05-25

1.2MB

图像处理方法及装置、图像处理模型的训练方法及装置.pdf

本发明提供了一种图像处理方法及装置、图像处理模型的训练方法及装置，涉及图像处理技术领域，该图像处理方法包括：获取原始衍射图像；将原始衍射图像输入至图像处理模型；通过图像处理模型对原始衍射图像进行复原处理，得到原始衍射图像对应的目标标准图像。本发明能够简化图像复原方式，有效提升复原后的目标标准图像的质量，改善显示屏显示图像的效果。

2024-01-09

851KB

音频处理模型的训练方法及装置、音频处理方法及装置.pdf

本公开关于一种音频处理模型的训练方法及装置、一种音频处理方法及装置。音频处理模型的训练方法包括：获取纯净音频信号的幅度谱和带噪音频信号的幅度谱；将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱；通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱；基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱；通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数，从而提高音频处理模

2023-11-06

783KB

图像处理装置、模型训练装置以及模型训练方法.pdf

本发明提供自适应地进行结构感知从而能够提高医用图像的分割处理的精度的图像处理装置、模型训练装置以及模型训练方法。实施方式的模型训练装置用于训练医用图像的分割模型，具备：取得部，取得包括管状物分割结果的样本医用图像作为训练数据；中心线提取部，提取所述样本医用图像中的管状物的中心线；膨胀部，对所述中心线提取部提取的中心线进行膨胀，得到膨胀后的中心线；损失函数设定部，设定将包含所述膨胀后的中心线的像素矩阵作为权重矩阵的损失函数；以及学习部，使用所述损失函数设定部设定的所述损失函数，对所述训练数据进行学习，从而输

2023-05-31

2.6MB

页面处理方法及装置、页面回溯方法及装置.pdf

本申请提供页面处理方法及装置、页面回溯方法及装置，其中所述页面处理方法包括：接收客户端针对当前展示页面提交的操作请求；确定所述操作请求对应的目标页面代码，并发送至所述客户端；根据所述目标页面代码和发送所述目标页面代码的时间生成目标关键帧；确定所述当前展示页面对应的关键帧的存储块，将所述目标关键帧写入所述存储块并更新所述存储块的记录标识；从而实现在合规性检测场景中，可以快速的回溯出客户端展示过的页面。

2023-05-25

1MB