基于特征域词频的邮件过滤方法的研究内容摘要:

 基于特征域词频的邮件过滤方法的研究 特征词典的构建 :  x2(t,c)综合比较了词条对某一个类别的贡献和对其余类别的贡献。 其中 , 如果 ADCB0, 说明该词和类别正相关 ,即词条出现说明某个类别也可能出现;反之 , 如果 ADCB0, 说明该词和类别负相关 , 即词条出现说明某个类别很可能不会出现。 因此在特征选择时 , 要选择 x2(t,c)值高并且同时满足 ADCB0的词条作为特征词 , 并按照x2(t,c)值将特征词从高到低进行排序。 )()()()()(),( 22DCBADBCACBADNctx 基于特征域词频的邮件过滤方法的研究 邮件文本权值计算方法 : 基于训练语料的数据准备  利用概率模型计算特征词 ti在相关邮件集合 D中出现的概率 P(ti|D), 以及 ti在非相关邮件集合中出现的概率:  其中 Dr表示用户判断相关的检出的相关文档集合 ,它由包含特征词 ti的邮件集组成。 Dr,i表示 Dr的一个子集。 ni表示整个邮件集合中包含 ti的邮件数量。 ||||)|( ,riri DDDtP ||||)|( ,ririi DNDnDtP 基于特征域词频的邮件过滤方法的研究 邮件文本权值计算方法 : 基于训练语料的数据准备  特征词与垃圾邮件文本之间的相似度关系可以分解为待过滤的邮件与集合中的每一个特征词之间的相似度之和:  其中 T是特征词典 , t为某一特征词。 对于一次相似度计算来说 , λt=1;对于相关反馈得到的扩展相似度计算。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。