网页内文抽取方法-豆柴文库

网页内文抽取方法.pdf

2023-07-24

10金币

1.7MB

23页

努力****承悦

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共23页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114254231A(43)申请公布日2022.03.29(21)申请号202011014406.7(22)申请日2020.09.24(71)申请人台达电子工业股份有限公司地址中国台湾桃园市(72)发明人汤珮茹陈宜均(74)专利代理机构隆天知识产权代理有限公司72003代理人黄艳(51)Int.Cl.G06F16/958(2019.01)G06V30/41(2022.01)权利要求书2页说明书9页附图11页(54)发明名称网页内文抽取方法(57)摘要一种网页内文抽取方法，运用于电子装置并且包括：取得特定网页的网页截图及网页原始码；对网页截图进行辨识，以取得至少一个目标区块在网页截图中的位置，其中所述目标区块至少包括特定文字内容；对目标区块执行字元辨识处理，以取得所述特定文字内容；及，将特定文字内容与网页原始码的内容进行比对以取得与所述特定文字内容的相似度最高的特定原始码内文，并输出所述特定原始码内文以作为特定网页的网页内文。CN114254231ACN114254231A权利要求书1/2页1.一种网页内文抽取方法，运用于一电子装置，并且包括下列步骤：a)取得一特定网页的一网页截图及一网页原始码；b)通过一物件检测模块对该网页截图进行辨识，以取得至少一目标区块在该网页截图中的位置，其中该目标区块至少包括一特定文字内容；c)通过一文字辨识模块对该网页截图中的该目标区块执行一字元辨识处理，以取得该特定文字内容；及d)通过一文字比对模块将该特定文字内容与该网页原始码的内容进行比对，以输出与该特定文字内容的相似度最高的一特定原始码内文。2.如权利要求1所述的网页内文抽取方法，其中，该步骤d)包括下列步骤：d1)通过一原始码分析模块对该网页原始码进行分析以取得多组原始码内文，其中各该原始码内文分别对应至该网页原始码中的至少一个标签类别；d2)通过该文字比对模块比对该特定文字内容及各该原始码内文的一相似度，并且取得与该特定文字内容的相似度最高的该特定原始码内文；及d3)输出该特定原始码内文。3.如权利要求2所述的网页内文抽取方法，其中，该特定网页为以超文本标记语言建构的网页，并且该标签类别至少包括所述超文本标记语言中的内文标签。4.如权利要求1所述的网页内文抽取方法，其中，该步骤a)是取得该特定网页的一网址，基于该网址开启该特定网页，并于该特定网页被开启后取得该特定网页的该网页截图及该网页原始码。5.如权利要求1所述的网页内文抽取方法，其中，该目标区块至少包括一内文区块以及一标题区块，该特定文字内容为该特定网页中的内文文字以及标题文字。6.如权利要求1所述的网页内文抽取方法，其中，该步骤b)是基于该目标区块的位置对该网页截图进行裁切以产生一裁切后影像，并且该步骤c)是对该裁切后影像执行该字元辨识处理以取得该特定文字内容。7.如权利要求1所述的网页内文抽取方法，其中，该步骤b)包括下列步骤：b11)由该物件检测模块对该网页截图进行辨识，以取得一第一区块的位置；b12)根据该第一区块的位置取得一第二区块的位置，其中该第二区块不同于该第一区块；b13)将该第一区块与该第二区块汇入该文字辨识模块中。8.如权利要求1所述的网页内文抽取方法，其中，该步骤b)包括下列步骤：b21)由该物件检测模块对该网页截图进行辨识，以取得一内文区块的位置；b22)对该网页截图进行裁切，以保留该内文区块上方的影像并产生一部分影像；b23)由该物件检测模块对该部分影像进行辨识，以取得一标题区块的位置；及b24)将该内文区块与该标题区块汇入该文字辨识模块中。9.如权利要求8所述的网页内文抽取方法，其中，该步骤b22)之后还包括一步骤b221)：对该部分影像进行一放大处理；并且于该步骤b23)中，该物件检测模块是对放大后的该部分影像进行辨识。10.如权利要求8所述的网页内文抽取方法，其中，该步骤b21)的后还包括一步骤b211)：基于该内文区块的位置对该网页截图进行裁切以产生一裁切后内文影像；该步骤2CN114254231A权利要求书2/2页b23)之后还包括一步骤b231)：基于该标题区块的位置对该部分影像进行裁切以产生一裁切后标题影像；其中，该步骤b24)是将该裁切后内文影像及该裁切后标题影像汇入该文字辨识模块中，并且该步骤c是分别对该裁切后内文影像与该裁切后标题影像执行该字元辨识处理以分别取得该特定网页的一网页内文及一网页标题。11.如权利要求1所述的网页内文抽取方法，其中，该物件检测模块为以深度学习演算法预先训练完成的一影像辨识模块，该影像辨识模块用以在该特定网页中标示出一标题区块的覆盖范围及一内文区块的覆盖范围，其中该文字辨识模块是基于该标题区块的覆盖范围对该网页截图执行该字元辨识处理以取

相关资料

网页内文抽取方法.pdf

一种网页内文抽取方法，运用于电子装置并且包括：取得特定网页的网页截图及网页原始码；对网页截图进行辨识，以取得至少一个目标区块在网页截图中的位置，其中所述目标区块至少包括特定文字内容；对目标区块执行字元辨识处理，以取得所述特定文字内容；及，将特定文字内容与网页原始码的内容进行比对以取得与所述特定文字内容的相似度最高的特定原始码内文，并输出所述特定原始码内文以作为特定网页的网页内文。

2023-07-24

1.7MB

网页正文抽取方法及装置.pdf

本发明公开了网页正文抽取方法及装置，通过下载网页页面，根据所述网页页面获取网页源代码，根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树，采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型，基于所述视觉识别模型定位文本域，基于所述文本域抽取特征文本，从而获得所述网页页面的正文语料，能有效避免现有抽取技术中人工规则和模板的弊端，能有效提取网页内容，兼容性高，杂质去除完整。

2024-01-06

314KB

动态网页的信息抽取方法.docx

动态网页的信息抽取方法标题：动态网页的信息抽取方法摘要：随着互联网的快速发展，动态网页逐渐成为用户获取信息的主要来源之一。与静态网页相比，动态网页具有更多的交互性和实时性。然而，由于动态网页的结构复杂且内容不断变化，其信息抽取变得困难且具有挑战性。本论文旨在探讨动态网页信息抽取的方法，并对其现有技术进行评估，以指导相关领域的研究和实践。第一章引言1.1研究背景1.2研究目的1.3论文结构第二章动态网页的特点及挑战2.1动态网页与静态网页的区别2.2动态网页的特点2.3动态网页信息抽取的挑战第三章动态网页信

2024-10-17

11KB

基于网页文章的标题抽取方法及装置.pdf

本发明提出一种基于网页文章的标题抽取方法及装置,其中方法包括:获取网页文章对应的网页代码;根据渲染后的网页代码,构建DOM树;根据DOM树各个节点中元素的实际属性值对渲染后的网页代码进行调整;获取DOM树中正文区域前的叶子节点,并作为标题候选节点;根据标题候选节点中的文本内容特征,以及标题候选节点与正文区域之间的距离,计算标题候选节点的特征分数;将对应的特征分数最高的标题候选节点确定为标题节点,将其文本内容确定为网页文章的标题,从而能够结合正文区域所在位置,确定标题候选节点,结合标题候选节点中的文本内容特

2023-06-10

594KB

一种网页标题的抽取方法与装置.pdf

本发明提供了一种网页标题抽取方法。该方法包括：确定检索词在网页标题中的位置；判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈现长度，如果否，则查找断句符，当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时，将相应文字作为结果返回。本发明还提供了一种网页标题抽取装置。本发明呈现出来的网页标题，既具有较强的可读性和保留了较多的核心信息，又带有“标红”记号便于检索者快速获得检索内容。

2023-11-25

526KB