数据处理方法和装置-豆柴文库

数据处理方法和装置.pdf

2023-06-14

10金币

718KB

21页

邻家****66

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共21页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113822272A(43)申请公布日2021.12.21(21)申请号202011261210.8(22)申请日2020.11.12(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人张娟(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G06K9/32(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书4页说明书12页附图4页(54)发明名称数据处理方法和装置(57)摘要本申请公开了数据处理方法和装置，具体实现方案为：响应于接收到页面图像，对页面图像进行标注，生成与标注数据对应的各个图像集，各个图像集包括：用于识别容器类型的第一图像集、用于识别文本信息的第二图像集和用于检测图像元素的第三图像集，页面图像基于页面模板而生成；将各个图像集输入至训练得到的图像识别模型，生成与第一图像集对应的容器类型数据集、与第二图像集对应的文本数据集和与第三图像集对应的图像元素数据集；基于页面的模板信息，对容器类型数据集、文本数据集和图像元素数据集进行转换，生成与页面图像对应的模板数据集并上传。该方案利用图像识别技术，将页面图像转化为模板数据，实现了模板数据的精准定位。CN113822272ACN113822272A权利要求书1/4页1.一种数据处理方法，所述方法包括：响应于接收到页面图像，对所述页面图像进行标注，生成与所述标注数据对应的各个图像集，其中，所述各个图像集包括：用于识别容器类型的第一图像集、用于识别文本信息的第二图像集和用于检测图像元素的第三图像集，所述页面图像基于页面模板而生成；将各个图像集输入至训练得到的图像识别模型，生成与所述第一图像集对应的容器类型数据集、与所述第二图像集对应的文本数据集和与所述第三图像集对应的图像元素数据集，其中，所述图像识别模型用于表征对所述第一图像集中各个图像进行容器类型判定、对所述第二图像集中各个图像进行文字检测和文本识别、对所述第三图像集中各个图像进行图像元素检测和识别；基于所述页面的模板信息，对所述容器类型数据集、所述文本数据集和所述图像元素数据集进行转换，生成与所述页面图像对应的模板数据集，并上传所述模板数据集，其中，所述转换基于特定语言结构对所述容器类型数据集、所述文本数据集和所述图像元素数据集进行转换。2.根据权利要求1所述方法，其中，所述对所述页面图像进行标注，生成与所述标注数据对应的各个图像集，包括：对所述页面图像进行标注，得到与所述页面图像对应的标注数据；将所述标注数据输入至位置确定模型，生成与所述标注数据对应的各个区块的位置信息，其中，所述位置确定模型由所述标注数据的历史相关数据训练得到；基于所述各个区块的位置信息，确定与所述标注数据对应的各个图像集。3.根据权利要求1所述方法，其中，所述图像识别模型通过如下方式训练得到：获取训练样本集，其中，所述训练样本集中的训练样本包括用于识别容器类型的第一图像集、用于识别文本信息的第二图像集、用于检测图像元素的第三图像集、与所述第一图像集对应的容器类型数据集、与所述第二图像集对应的文本数据集和与所述第三图像集对应的图像元素数据集；利用深度学习方法，将所述训练样本集中训练样本包括的所述第一图像集、所述第二图像集和所述第三图像集作为输入数据，将与所述第一图像集对应的容器类型数据集、与所述第二图像集对应的文本数据集和与所述第三图像集对应的图像元素数据集作为期望输出数据，训练得到图像识别模型。4.根据权利要求1所述方法，其中，所述图像识别模型包括容器类型识别子模型、文本识别子模型和元素识别子模型；所述将各个图像集输入至训练得到的图像识别模型，生成与所述第一图像集对应的容器类型数据集、与所述第二图像集对应的文本数据集和与所述第三图像集对应的图像元素数据集，包括：将所述第一图像集输入至所述容器类型识别子模型，生成与所述第一图像集对应的容器类型数据集，其中，所述容器类型识别子模型用于表征对所述第一图像集中各个图像进行容器类型判定；将所述第二图像集输入至所述文本识别子模型，生成与所述第二图像集对应的文本数据集，其中，所述文本识别子模型用于表征对所述第二图像集中各个图像进行文字检测和文本识别；将所述第三图像集输入至所述元素识别子模型，生成与所述第三图像集对应的图像元2CN113822272A权利要求书2/4页素数据集，其中，所述元素识别子模型用于表征对所述第三图像集中各个图像进行图像元素检测和识别。5.根据权利要求4所述方法，其中，所述文本

相关资料

搜索方法和装置、数据处理方法和装置.pdf

本公开提供了一种搜索方法和装置，涉及大数据技术领域。具体实现方案为：从第一目标存储器中获取多个对应同一数据处理目标的数据处理条件；基于所述数据处理条件，从第二目标存储器提取相应的测算样本；采用目标处理器基于测算样本和数据处理目标，计算并排序所有数据处理条件对应数据处理目标的测算结果，得到条件结果序列；组合条件结果序列中的测算结果对应的数据处理条件，得到条件组序列；基于条件组序列的测算样本的交集对应的测算结果，确定应用条件集，并将应用条件集存入第一目标存储器。该实施方式提高了应用条件的搜索效率。

2023-07-21

616KB

数据处理方法和装置.pdf

本说明书提供一种数据处理方法和装置。所述方法包括：计算多个第一方元素的多个分片数据；将第一方元素的部分分片数据发送给第二设备；接收所述第二设备发送的第二方筛选值的部分分片数据；与所述第二设备共同参与所述第一方元素和所述第二方筛选值的基于秘密分享的多方安全运算，得到对应每个第一方元素的第一方筛选结果值的第一筛选结果值分片数据；针对所述第一方筛选结果值的第一方筛选结果值分片数据执行指定运算得到第一目标数据的第一目标分片数据；接收所述第二设备提供的所述第一目标数据的第二目标分片数据；结合所述第一目标分片数据和所

2023-05-25

1KB

数据处理方法和装置.pdf

本申请公开了数据处理方法和装置，具体实现方案为：响应于接收到页面图像，对页面图像进行标注，生成与标注数据对应的各个图像集，各个图像集包括：用于识别容器类型的第一图像集、用于识别文本信息的第二图像集和用于检测图像元素的第三图像集，页面图像基于页面模板而生成；将各个图像集输入至训练得到的图像识别模型，生成与第一图像集对应的容器类型数据集、与第二图像集对应的文本数据集和与第三图像集对应的图像元素数据集；基于页面的模板信息，对容器类型数据集、文本数据集和图像元素数据集进行转换，生成与页面图像对应的模板数据集并上传

2023-06-14

718KB

数据处理方法和装置.pdf

本发明公开了一种数据处理方法和装置，涉及计算机技术领域。该方法包括：在接收到数据打标请求后，确定第一数据表中待处理业务数据的唯一标识、以及待标记的业务字段；其中，第一数据表中的一行用于存储一条业务数据，所述业务数据包括各个业务字段的值、以及用于对所述业务字段进行标记的业务标识字段值；根据所述待标记的业务字段生成以二进制形式表示的第一业务标识值，并将所述第一业务标识值转换成以十进制形式表示的第二业务标识值；根据所述第二业务标识值对第一数据表中对应于所述唯一标识的业务数据中的业务标识字段值进行更新。通过以上步

2023-06-14

744KB

数据处理方法和装置.pdf

本发明公开了一种数据处理方法和装置，涉及计算机技术领域。该方法包括：对与目标信息相对应的样本数据进行映射处理，以得到第一特征矩阵；对第一特征矩阵中由所述多个特征向量中的同一维度元素构成的向量之间、以及特征向量之间和/或元素之间，按照预设顺序分别进行运算处理，并根据运算处理结果得到与之对应的第二特征矩阵、以及第三特征矩阵和/或第四特征矩阵；对第二特征矩阵、以及第三特征矩阵和/或第四特征矩阵进行融合处理，以得到融合处理后的结果；将融合处理后的结果输入点击率预估模型，以得到目标信息的点击率预估结果。通过以上步骤

2023-06-14

887KB