预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

垃圾邮件过滤系统1、什么是垃圾邮件? 垃圾邮件过滤 2、什么是过滤?如何过滤?垃圾邮件的定义垃圾邮件的防范过滤信息过滤所需要解决这样几个问题信息过滤在文档类信息中的应用就是将文档内容按照一定的表示方法如向量空间模型进行整理后,采用文本分类的方法进行信息过滤。 文本分类的算法有基于概念的文本分类算法、贝叶斯分类方法、K-最近邻接分类算法、基于语义网络的概念推理网分类方法和向量空间法等。我们主要采用的是贝叶斯分类方法。 贝叶斯分类方法Graham使用NaiveBayesian过滤垃圾邮件的理论算法说明特征w概率f(w)的计算:邮件特征联合概率的算法 在过滤过程中,对于进入过滤的邮件,我们要根据训练的结果和该邮件的特征表示,给该邮件一个综合的判定值,即联合概率。然后根据设定的阈值,判定此邮件是垃圾邮件还是合法邮件。 计算方法如下:本垃圾邮件过滤系统的工作说明邮件提取:利用对邮件的解码提取邮件信息,包括对测 试集邮件的提取和训练集邮件的提取。 特征提取:将由训练集或者测试集中的邮件,进行特征 提取。在训练集中,把从邮件提取的特征,按照已定的 算法进行计算,再用放入特征库中来进行储存;在测试 集中,提取邮件的特征,交给下个环节处理。 在系统中,邮件阶段是通过对邮件的解码获取信息,并将邮件转换为文本。特征提取是提取邮件的主题和邮件体中的字符串,利用token串统计提取出的token串中各个token出现的次数。 模式匹配:接受特征提取中后的信息,根据规则数据库中的规则,按照某种相似度计算算法计算信息与实际需求的相关性,在达到一定的阀值后,输出过滤的结果。 信息表示:提供对过滤后的邮件的浏览,以及对过滤效果的评价。 模式匹配阶段分为两个阶段:训练和测试。 训练阶段主要是训练规则库,提取spam和ham的 特征;主要分三步: 解析邮件和提取特征;建立三个哈希表:hash-good、hash-bad、hash-spamminess;hash-good存放合法邮件中提取的特征和各特征在合法邮件中出现的次数;hash-bad存放垃圾邮件中提取的特征和各特征在垃圾邮件中出现的次数; 综合考虑hash-good和hash-bad,建立各特征的垃圾邮件指示概率(spammniessprobability),存入哈希表hash-spamminess中。测试阶段是利用已训练完成的规则库,对邮件进行 判断。并向用户提交结果。其过滤过程为: 对于新的邮件,提取邮件的特征,通常是最能代表 邮件内容的若干个特征(这里的特征应该是它们的垃圾邮 件指示性概率远离0.5的),通过哈希表hash-spamminess 计算这封新邮件的联合概率(combinedprobability)。如果 邮件的联合概率超过某个阀值,就判此邮件为垃圾邮件, 其他的为合法邮件。谢谢!!!