预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114254231A(43)申请公布日2022.03.29(21)申请号202011014406.7(22)申请日2020.09.24(71)申请人台达电子工业股份有限公司地址中国台湾桃园市(72)发明人汤珮茹陈宜均(74)专利代理机构隆天知识产权代理有限公司72003代理人黄艳(51)Int.Cl.G06F16/958(2019.01)G06V30/41(2022.01)权利要求书2页说明书9页附图11页(54)发明名称网页内文抽取方法(57)摘要一种网页内文抽取方法,运用于电子装置并且包括:取得特定网页的网页截图及网页原始码;对网页截图进行辨识,以取得至少一个目标区块在网页截图中的位置,其中所述目标区块至少包括特定文字内容;对目标区块执行字元辨识处理,以取得所述特定文字内容;及,将特定文字内容与网页原始码的内容进行比对以取得与所述特定文字内容的相似度最高的特定原始码内文,并输出所述特定原始码内文以作为特定网页的网页内文。CN114254231ACN114254231A权利要求书1/2页1.一种网页内文抽取方法,运用于一电子装置,并且包括下列步骤:a)取得一特定网页的一网页截图及一网页原始码;b)通过一物件检测模块对该网页截图进行辨识,以取得至少一目标区块在该网页截图中的位置,其中该目标区块至少包括一特定文字内容;c)通过一文字辨识模块对该网页截图中的该目标区块执行一字元辨识处理,以取得该特定文字内容;及d)通过一文字比对模块将该特定文字内容与该网页原始码的内容进行比对,以输出与该特定文字内容的相似度最高的一特定原始码内文。2.如权利要求1所述的网页内文抽取方法,其中,该步骤d)包括下列步骤:d1)通过一原始码分析模块对该网页原始码进行分析以取得多组原始码内文,其中各该原始码内文分别对应至该网页原始码中的至少一个标签类别;d2)通过该文字比对模块比对该特定文字内容及各该原始码内文的一相似度,并且取得与该特定文字内容的相似度最高的该特定原始码内文;及d3)输出该特定原始码内文。3.如权利要求2所述的网页内文抽取方法,其中,该特定网页为以超文本标记语言建构的网页,并且该标签类别至少包括所述超文本标记语言中的内文标签。4.如权利要求1所述的网页内文抽取方法,其中,该步骤a)是取得该特定网页的一网址,基于该网址开启该特定网页,并于该特定网页被开启后取得该特定网页的该网页截图及该网页原始码。5.如权利要求1所述的网页内文抽取方法,其中,该目标区块至少包括一内文区块以及一标题区块,该特定文字内容为该特定网页中的内文文字以及标题文字。6.如权利要求1所述的网页内文抽取方法,其中,该步骤b)是基于该目标区块的位置对该网页截图进行裁切以产生一裁切后影像,并且该步骤c)是对该裁切后影像执行该字元辨识处理以取得该特定文字内容。7.如权利要求1所述的网页内文抽取方法,其中,该步骤b)包括下列步骤:b11)由该物件检测模块对该网页截图进行辨识,以取得一第一区块的位置;b12)根据该第一区块的位置取得一第二区块的位置,其中该第二区块不同于该第一区块;b13)将该第一区块与该第二区块汇入该文字辨识模块中。8.如权利要求1所述的网页内文抽取方法,其中,该步骤b)包括下列步骤:b21)由该物件检测模块对该网页截图进行辨识,以取得一内文区块的位置;b22)对该网页截图进行裁切,以保留该内文区块上方的影像并产生一部分影像;b23)由该物件检测模块对该部分影像进行辨识,以取得一标题区块的位置;及b24)将该内文区块与该标题区块汇入该文字辨识模块中。9.如权利要求8所述的网页内文抽取方法,其中,该步骤b22)之后还包括一步骤b221):对该部分影像进行一放大处理;并且于该步骤b23)中,该物件检测模块是对放大后的该部分影像进行辨识。10.如权利要求8所述的网页内文抽取方法,其中,该步骤b21)的后还包括一步骤b211):基于该内文区块的位置对该网页截图进行裁切以产生一裁切后内文影像;该步骤2CN114254231A权利要求书2/2页b23)之后还包括一步骤b231):基于该标题区块的位置对该部分影像进行裁切以产生一裁切后标题影像;其中,该步骤b24)是将该裁切后内文影像及该裁切后标题影像汇入该文字辨识模块中,并且该步骤c是分别对该裁切后内文影像与该裁切后标题影像执行该字元辨识处理以分别取得该特定网页的一网页内文及一网页标题。11.如权利要求1所述的网页内文抽取方法,其中,该物件检测模块为以深度学习演算法预先训练完成的一影像辨识模块,该影像辨识模块用以在该特定网页中标示出一标题区块的覆盖范围及一内文区块的覆盖范围,其中该文字辨识模块是基于该标题区块的覆盖范围对该网页截图执行该字元辨识处理以取