一种基于网页特征识别的噪音网页过滤方法.pdf
美丽****ka
在线预览结束,喜欢就下载吧,查找使用更方便
相关资料
一种基于网页特征识别的噪音网页过滤方法.pdf
本发明公开了一种基于网页特征识别的噪音网页过滤方法,该方法深入分析了噪音网页和主题网页的特征,通过页面特征识别,对各特征设置阈值判断能够有效去除具有明显特征的噪音网页,缩减数据集,而后,利用显著特征生成更丰富的特征向量,利用SVM分类器对网页进行分类,过滤噪音网页,保留有效的主题网页,确保后期深入分析研究工作的质量和效果。
一种基于网页特征识别的噪音网页过滤方法.pdf
本发明公开了一种基于网页特征识别的噪音网页过滤方法,该方法深入分析了噪音网页和主题网页的特征,通过页面特征识别,对各特征设置阈值判断能够有效去除具有明显特征的噪音网页,缩减数据集,而后,利用显著特征生成更丰富的特征向量,利用SVM分类器对网页进行分类,过滤噪音网页,保留有效的主题网页,确保后期深入分析研究工作的质量和效果。
一种基于网页块特征的多级网页聚类方法.docx
一种基于网页块特征的多级网页聚类方法1.引言近年来,随着互联网的迅速发展,互联网中的信息爆炸式增长,大量的页面开始充斥在互联网上,对于用户的阅读和查找带来了很大的困难。同时,由于网页信息量大,面对大量的页面,人们的阅读效率和使用效率会大大降低。因此,为了解决这些问题,网页聚类技术应运而生。网页聚类技术是将具有相似特征的网页按照某种规则或方法分成若干个类别,使得每个类别中的网页尽可能地相似。本文提出了一种基于网页块特征的多级网页聚类方法,该方法能够充分利用网页块特征,对网页进行多层次的聚类,从而充分发挥网页
一种基于网页主体特征和中介真值的网页主体提取方法.pdf
本发明基于网页主体特征和中介真值的网页主体识别和提取方法是一种Web信息抽取过程中进行主体识别的解决方案。主要用于解决主体识别存在的通用性不强、准确度有待提高的问题,属于Web信息处理领域。本发明的特征:通过考察网页结点树中每个结点的子树数、平均子树分支数、可显示字符数和子树分支数极差等属性,从多角度判别每个结点是主体结点的真值程度,再综合各个角度的评判结果识别出网页的主体结点,从而具有较高的网页主体识别准确度;而且本发明能够针对每个网页自动设定中介真值程度计算所需要各个属性的界值,多角度判别和自动设定界
基于概念集合的网页内容过滤方法的研究.docx
基于概念集合的网页内容过滤方法的研究基于概念集合的网页内容过滤方法的研究摘要:随着互联网的快速发展,人们越来越依赖网络获取信息,但同时也面临着大量垃圾信息和不良信息的困扰。为了解决这一问题,本文提出了一种基于概念集合的网页内容过滤方法,该方法通过构建概念集合并基于概念相似度计算来进行网页内容的过滤,旨在提高网页内容的质量和用户体验。关键词:基于概念集合,网页内容过滤,概念相似度计算1.引言随着互联网的普及,人们可以通过各种渠道获取海量的信息,然而这些信息中也掺杂着大量的垃圾信息和不良信息,给用户带来了困扰