预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110297900A(43)申请公布日2019.10.01(21)申请号201910585883.XG06N3/08(2006.01)(22)申请日2019.07.01(71)申请人广州需你计算机服务有限公司地址511400广东省广州市番禺区小谷围街外环东路232号13栋B121(72)发明人文谟祥杨与钦李辉城曾令均杨泽辉(74)专利代理机构合肥律众知识产权代理有限公司34147代理人冯慧云(51)Int.Cl.G06F16/335(2019.01)G06F16/35(2019.01)G06F17/27(2006.01)G06F16/9535(2019.01)权利要求书2页说明书4页附图5页(54)发明名称一种基于神经网络的Web文本信息过滤方法(57)摘要本发明涉及Web文本信息过滤技术领域,且公开了一种基于神经网络的Web文本信息过滤方法,包括如下步骤,S1:网页清洗;S2:采用最大匹配法对文本内容进行分词;S3:计算文本的特征向量,并进行降维处理;S4:神经网络学习;S5:神经网络过滤,根据评价向量对网页进行分类,输出过滤结果。该基于神经网络的Web文本信息过滤方法,采用神经网络算法,可严格过滤用户不感兴趣的Web文本,增强文本信息过滤的精度;并采用神经网络算法,使得过滤具有的一定的智能性,可保留一些用户可能感兴趣的文本信息。CN110297900ACN110297900A权利要求书1/2页1.一种基于神经网络的Web文本信息过滤方法,其特征在于,包括如下步骤:S1:网页清洗;S2:采用最大匹配法对文本内容进行分词;S3:计算文本的特征向量,并进行降维处理;S4:神经网络学习;S5:神经网络过滤,根据评价向量对网页进行分类,输出过滤结果。2.根据权利要求1所述的一种基于神经网络的Web文本信息过滤方法,其特征在于:所述步骤S1网页清洗具体步骤如下:S1-1:去除页面中包含的注释、脚本、样式表等信息;S1-2:根据页面的组织结构将页面划分为若干个信息块,如文本块、链接块、图像等;S1-3:从文本块中区分出版权、广告等非关键信息块。3.根据权利要求1所述的一种基于神经网络的Web文本信息过滤方法,其特征在于:所述步骤S2分词具体步骤如下:S2-1:限定词的最大长度;S2-2:从最大的长度开始在词库中进行匹配直到匹配成功;S2-3:更新起点的位置,继续上一步骤只到所有文本分完。4.根据权利要求1所述的一种基于神经网络的Web文本信息过滤方法,其特征在于:所述步骤S3具体步骤如下:S3-1:用特征向量表示文本内容,其中,为词条,为对应词条的权重值,定义为在中出现的频率的函数;S3-2:构建评价函数;S3-3:对特征集中的每一个特征进行评估;S3-4:根据评估得分进行排序,选择特征得分较高的作为新的特征子集。5.根据权利要求1所述的一种基于神经网络的Web文本信息过滤方法,其特征在于:所述步骤S4中具体步骤为:S4-1:初始化连接权值和节点阈值,利用BP神经网络进行训练;若满足训练精度,则停止训练;否则,进行S4-2的操作;其中,在利用BP神经网络进行训练时,首先,从输入层到输出层依次计算各层神经元的输入和输出;然后按输出层到输入层的顺序依次计算各层神经元的输出误差,并根据误差梯度下降原则来调节各层的连接权值和节点阈值;每次训练后与精度进行比较,满足训练精度方停止训练;S4-2:遗传算法编码,采用二进制编码和实数编码相结合的方式,其中,网络结构采用二进制编码,权阈值范围、学习速率和动量因子采用实数编码;S4-3:用适应度函数计算出各初始种群对应的适应度函数值;S4-4:采用种群交流的方法进行选择;S4-5:将选择后得到的新的群体按照预先确定的交叉率用均匀交叉的方式进行交叉;S4-6:根据预先给定的变异率进行变异操作;S4-7:重复进行步骤S4-4、S4-5、S4-6,直至满足达到最大进化代数;S4-8:将得到的权值用于BP神经网络训练,判断是否满足精度要求;若满足,则算法结2CN110297900A权利要求书2/2页束;否则,继续对权值进行训练,直至达到精度要求为止。6.根据权利要求1所述的一种基于神经网络的Web文本信息过滤方法,其特征在于:所述步骤S5中具体步骤为:S5-1:输入待过滤的文本的特征向量;S5-2:输出评价值;S5-3:根据评价值,输出过滤结果。3CN110297900A说明书1/4页一种基于神经网络的Web文本信息过滤方法技术领域[0001]本发明涉及Web文本信息过滤技术领域,具体为一种基于神经网络的Web文本信息过滤方法。背景技术[0002]随着互联网的快速发展,网页的存量越来越大,庞杂的网页以不同的形式干扰着人们的日常生活。正因