预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115098812A(43)申请公布日2022.09.23(21)申请号202210163751.XG06F40/14(2020.01)(22)申请日2022.02.22G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人杭州未名信科科技有限公司G06Q30/08(2012.01)地址311200浙江省杭州市萧山区宁围街道钱江世纪公园C区1幢101室申请人浙江省北大信息技术高等研究院(72)发明人潘帅陈家银张伟陈曦麻志毅(74)专利代理机构北京辰权知识产权代理有限公司11619专利代理师付婧(51)Int.Cl.G06F16/958(2019.01)G06F16/953(2019.01)G06F16/35(2019.01)权利要求书2页说明书9页附图3页(54)发明名称一种招标网页的正文抽取方法、装置及存储介质(57)摘要本申请涉及数据处理技术领域,更为具体来说,本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括:为待抽取的招标网页构建DOM树;确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;对待筛选文本集合进行规则筛选,得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题,大大地提升了效率,缩小了空间,又融合传统特征、深度学习算法及规则筛选的方式得到目标正文,从而提升了抽取正文的准确率。CN115098812ACN115098812A权利要求书1/2页1.一种招标网页的正文抽取方法,其特征在于,所述方法包括:为待抽取的招标网页构建DOM树;确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;对待筛选文本集合进行规则筛选,得到目标正文。2.根据权利要求1所述的招标网页的正文抽取方法,其特征在于,所述从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,包括:若所述第一节点与所述第二节点相同,则将所述第一节点确定为最优节点;若所述第一节点与所述第二节点不相同,则基于预设卷积神经网络模型从所述第一节点和所述第二节点中选择最优节点。3.根据权利要求2所述的招标网页的正文抽取方法,其特征在于,若所述第一节点与所述第二节点相同,则将所述第一节点确定为最优节点之后,还包括:将所述第一节点的子节点构成的层级确定为当前层级,从所述确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点的步骤循环执行,以确定出所述多个层级对应的最优节点。4.根据权利要求2所述的招标网页的正文抽取方法,其特征在于,基于预设卷积神经网络模型从所述第一节点和所述第二节点中选择最优节点,包括:将所述第一节点和所述第二节点对应的文本输入预设卷积神经网络模型中,输出所述第一节点和所述第二节点对应的文本分类结果;根据所述第一节点和所述第二节点对应的文本分类结果,从所述第一节点和所述第二节点中选择最优节点。5.根据权利要求4所述的招标网页的正文抽取方法,其特征在于,所述根据所述第一节点和所述第二节点对应的文本分类结果,从所述第一节点和所述第二节点中选择最优节点,包括:若所述第一节点和所述第二节点对应的文本分类结果均为非正文,则选择p标签数最多的节点作为最优节点;若所述第一节点和所述第二节点对应的文本分类结果均不是非正文,则选择非正文标签中概率最小的节点作为最优节点;若所述第一节点对应的文本分类结果为非正文,则选择所述第二节点作为最优节点;若所述第二节点对应的文本分类结果为非正文,则选择所述第一节点作为最优节点。6.根据权利要求1所述的招标网页的正文抽取方法,其特征在于,确定出所述DOM树当前层级中节点分数最高的第一节点,包括:基于文本密度与符号密度计算出DOM树当前层级所有节点的节点分数;从当前层级所有节点中选择节点分数最高的节点作为第一节点。7.根据权利要求6所述的招标网页的正文抽取方法,其特征在于,所述基于文本密度与符号密度计算出DOM树当前层级所有节点的节点分数,公式为:2CN115098812A权利要求书2/2页其中,td表示节点的文本密度,sbd表示节点的符号密度,p表示p标签的数量,ntd表示当前层级下文本密度集合,np表示当前层级下p标签数量集合,nsbd表示当前层级下符号密度集合。8.根据权利要求1所述的招标网页的正文抽取方法,其特征在于