基于贝叶斯算法分类的反垃圾邮件系统的改进毕业论文(编辑修改稿)内容摘要:

圾邮件中心的统计, 2020 年以来几乎每月我国都有 100 多台服务器被国外权威反垃圾邮件组织列入黑名单 [3]。 中国是电子邮件大国,由于网络的开放性,垃圾邮件成为互联网上的一个日益严重的全球性安全问题,越来越得到社会大众和研究人员的重视和关注。 因此,针对这一问题尽快寻找解决方案的需求也更加迫切。 垃圾邮件的定义及其危害 垃圾邮件定义 垃圾邮件的英文名称为 Spam或 Junk Mail,一般使用 Spam一词。 很多组织或机构都给垃圾邮件下过定义。 例如,著名的反垃圾组织 spamhaus 提出,垃圾邮件具备以下两个特征: (1) 不请自来。 用户事先并 未 提出要求或者同意接收该邮件。 长春工业大学硕士学位论文 2 (2) 批量性。 该邮件 的副本在短时间内被大量发送给一个或多个用户。 2020 年,中国互联网协会在《中国互联网协会反垃圾邮件规范》中对垃圾邮件作了以下定义 [4]: (1) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件; (2) 收件人无法拒收的电子邮件; (3) 隐藏发件人身份、地址、标题等信息的电子邮件; (4) 含有虚假的信息源、发件人、路由等信息的电子邮件。 从以上界定的邮件内容上看,目前可以将垃圾邮件归纳为具有以下几类特征的邮件:带有商业广告性质的邮件;色情、暴力邮件;网上购物及 赚钱的邮件;带有政治目的的邮件以及带有病毒的邮件等。 垃圾邮件危害 [5] 垃圾邮件的泛滥给人们带来的危害和损失主要体现在以下几个方面: (1) 垃圾邮件给网络运营商 ( ISP) 造成了严重的损失。 大量的垃圾邮件在网络上传播,占用了网络带宽,导致网络通信质量下降,甚至是网络发生拥塞,干扰邮件系统的正常运行,根据 2020 年的一份研究报告显示,仅 2020 年垃圾邮件就给全球 ISP造成了至少 1000 万美元的损失。 最新的调查显示,企业收到的电子邮件中,竟有 28%为垃圾邮件。 英国电邮防毒企业 Message Labs 在调查中发现,有三分之一的企业抱怨他们收到了不想收到的电子邮件,有三分之二的企业表示他们正试图通过修改有关政策解决垃圾邮件泛滥的问题。 调查报告指出企业雇员通常每日花费 10 分钟的时间清理收件箱内的垃圾邮件。 照这一数字计算,每日由此造成的损失可达每 100 位雇员 万英镑。 Message Labs 公司指出,通过调查可以看出,越来越多的企业已经开始意识到垃圾邮件会浪费企业 IT 资源,降低生产效率。 一些企业己经采取了解决方案。 一项统计报告指出 ISP 业者为了对抗垃圾邮件,平均每个用户必须花费 2 元 美金成本 ; 该项报告还 指出垃圾邮件将影响传输速度 30%以上。 (2) 垃圾邮件侵害了用户的隐私权。 由于垃圾邮件的内容不可控制,所以常常有很多有害的内容。 例如,一些广告的垃圾邮件推广一些危险甚至是非法的盈利手段,如赌博或传销等 ; 还有一些色情的邮件,含有大量不健康的内容,特别是当收件人是未成年人时危害更大。 尤其危害大的是,很多垃圾邮件的附件中带有病毒,一旦收件人打开邮件,附件中的病毒就会对系统造成各种破坏。 垃圾邮件占用了用户邮箱空间,严重时导致用户无法收取有用邮件;有的垃圾邮件还盗用他人的电子邮件地址做发信地址,严重损害了用户的信誉。 (3) 垃圾邮件给网络带来了各种安全性的问题。 垃圾邮件会极大的影响网络的安全长春工业大学硕士学位论文 3 和系统的稳定性,特别是那些利用别人的服务器转发邮件的情况。 因为目前大部分的垃圾邮件是利用第三方服务器转发 ( OPEN RELAY)。 这样做可以节省邮件发送者经费,但是会给被盗用者带来很多危险,如由于线路拥塞 ,造成系统的瘫痪。 他就会让被盗用的邮件服务器背上转发垃圾邮件的 黑锅,影响正常的信件发送。 例如早些时候 , 为了制止来自中国的垃圾邮件泛滥的趋势,中国电子邮件面临被 欧洲 全面封杀、由于技术落后和缺乏相应安全措施,美洲 的垃圾邮件制造者通过 中国的邮件服务器发送垃圾邮件,而中国国内的 邮件服务器配置很差,很难记录它们是从哪儿传来的信件。 这些邮件服务器正是被西方垃圾邮件制造者用来转发垃圾邮件,这就是所谓“瞎子式转发”( Blind Relay) ,并被他们彼此以几百美元的价格互相买卖这种服务器的地址,最终欧美的很多 ISP 服务提供商封锁了中国的 IP 地址段。 从那时起,国际反垃圾邮件(MailAbuse)等组织的黑名单上就没少出现中国互联网企业的名字,新浪、网易、搜狐 、163 邮局、 26 21 等国内主要邮件服务都曾上榜。 据统计,我国网上用户约为 3370万,平均每个用户拥有 Email 账号 个。 随着中国加入世界贸易组织,中国的对外交流活动将呈上升趋势,对外邮件也将大幅增加,如果中国电子邮件遭遇全 面 封杀的话,对国外企业与组织也是巨大的损失。 (4) 垃圾邮件成了计算机病毒新的、快速的传播途径。 有些病毒利用浏览器的漏洞,以邮件的形式把自己伪装成补丁和安全升级的电子邮件发送给用户,只要用户点击该邮件,该病毒就会被激活。 由此可见,垃圾邮件的危害性是非常大的。 必须重视垃圾邮件的危害性以及开展反垃圾邮件工作的重要性,与垃圾邮件进行不懈的斗争。 国内外反垃 圾邮件现状 虽然垃圾邮件问题是最初从西方开始,以英文垃圾邮件为主,但是它越来越成为一个国际性的问题 [6],很多学者和技术人员也开展了反垃圾邮件的研究工作。 2020 年 7月 24 日 ,中国互联网络信息中心 ( CNNIC) 在京发布《第 22 次中国互联网络发展状况统计报告》显示 , 截至 2020 年 6 月底,我国网民数量达到了 亿,首次大幅度超过美国,跃居世界第一位。 与此同时,垃圾邮件也越来越深入网民的日常生活,电子邮件的使用率为 %,在网络应用中排名第六位。 只有不到 40%网民使用电子邮件过滤软件,超过五成的网民没有使 用过滤软件,数 字 显示网民 对于防范 垃圾邮件的意识薄弱 [7]。 我国反垃圾邮件的工作起步较晚,但发展迅速。 2020 年 12 月成立了一个政府资助的反垃圾邮件联盟,以应对越来越严重的垃圾邮件问题 [8]。 2020 年 2 月信息产业部颁布了中华人民共和国信息产业部第 38 号令《互联网电子邮件服务管理办法》,明确规定了对制造和传播垃圾邮件者的处罚办法。 组织各网络服务提供者、电子邮件服务商起草制订并发布《中国互联网协会互联网公共电子邮件服务规范》 [9];连续 7 次对长春工业大学硕士学位论文 4 外公布垃圾邮件黑名单 IP 地址;推出反垃圾邮件专业门户网 站-中国反垃圾邮件中心 ()等等一系列的具体而实际的反垃圾邮件治理工作,以减少垃圾邮件的泛滥。 国内外电子邮件系统相关各方都进行了大量的工作,包括在电子邮件系统中引入数字证书,建立各种加密邮件协议和标准,研究邮件防病毒技术和垃圾邮件过滤技术等;同时,不少国家都出台了电子邮件应用相关的法律法规,如电子签名法、反垃圾邮件 立 法等,对其进行约束和规范。 为了保证电子邮件在 Inter 上安全的运行,在理想状态下,应该 有一个 Inter 电子邮件的安全标准。 所有的邮件作者和厂商都要执行它 ,那么我们在 Inter 上将具有安全的电子邮件。 安全电子邮件先后提出了不同的标准: PGP、 PEM 和 S/MIME。 目前国际上有两大类流行的邮件安全系统标准:端到端安全邮件标准( PGP)和传输层安全邮件标准 S/MIME。 随着我国政府电子政务的建设,中国加入 WTO,越来越多的企事业单位会建设自己的邮件系统 /自动化办公系统,提高无纸化办公,实现电子商务。 用户需要安全的电子邮件系统产品,能够迅速构建安全可靠、高性能的电子邮件系统,并且维护管理和使用都比较方便简单。 安全电子邮件系统有着广泛的市场前景。 研 究目标与内容 本文的研究目标是基于贝叶斯 算法 ,构造垃圾邮件过滤模型,并对相关算法进行分析、比较、验证和测试,最后基于改进的贝叶斯算法,实现对垃圾邮件的过滤。 本文的主要工作是研究探讨基于内容分析的邮件过滤方法,分析贝叶斯算法及其改进算法的原理和实现方法,并研究过滤原型系统的设计、实现方法。 主要工作内容如下: (1) 对当前现有过滤技术发展现状、基本原理、 基本方法和过程进行研究和分析,并对主要过滤技术的优缺点进行比较。 (2) 将垃圾邮件样本集分类, 基于已分好类别的垃圾邮件样本集进行研究 ,提取每个类别中垃圾邮 件的关键词,该 关键词是垃圾邮件中的敏感字符,是一个类别中能表达该类别文本内容的词条 ,即分类向量。 计算每个分类向量在各类别中出现的概率,即得到特征向量。 (3) 本文采用互信息的方法 进行 特征 选取 , 计算每个 关键词 的 RMI 值,利用 RMI值确定特征向量的分量词条。 (4) 解决基于向量空间模型的邮件文本信息表示、文本分类中的特征向量的选择等问题,在对实现过滤器的关键技术中,主要针对基于朴素贝叶斯方法基础上对改进的贝叶斯算法进行深入研究,设计和实现基于贝叶斯算法分类的反垃圾邮件系统的改进的过滤系统,完成邮件过滤过程。 长春工业大学硕士学位论文 5 第二章 垃圾邮件技术 根据用户对反垃圾规则的可控性,本章根据电子邮件的原理,分析电子邮件技术及相关协议的不足,列举了当前的一些常用的反垃圾邮件技术,以便用户合理的选择反垃圾邮件技术。 电子邮件工作原理简介 电子邮件的概述 电子邮件( 简称 EMail)又称电子信箱、电子邮政,它是 — 种用电子手段提供信息交换的通信方式。 它是全球多种网络上使用最普遍的一项服务。 这种非交互式的通信,加速了信息的交流及数据传送,它是 — 个简易、快速的方法。 通过连接全世界的Inter,实现各类信号的传送、接收 、存储等处理,将邮件送到世界的各个角落。 到目前为止,可以说电子邮件是 Inter 资源使用最多的一种服务,电子邮件不只局限于信件的传递,还可用来传递文件、声音及图形、图 像 等不同类型的信息。 Inter 问世后的最初应用就是电子邮件。 虽然今天 Inter 的应用范围得到了极大的拓展,电子邮件仍然是最为广泛的应用之一。 在过去的若干年里,电子邮件的功能已经丰富了很多。 据 2020 年 3 月份 MessagingOnline 的一份数据显示, Inter 上有 亿个邮箱,平均每个 Inter 用户有 个。 《中国互联网发展大事记》中记载“ 1987年 9 月 20 日,钱天白教授发出我国第一封邮件‘超过长城, 走 向世界’,揭开了中国人 使用 Inter 的序幕”。 今天,电子邮件已经成为商业、政府、教育等行业最基本的通信工具。 为了创建一个世界范围的电子邮件系统, 1984 年 ISO(国际标准化组织)和 ITU(国际电信联盟 ) 发布了一个新的信件传递标准,这就是 [10],但由于它的规模和复杂性,并没有在全球范围内流行。 后来,邮件的协议和内容格式也是由 RFC(Request or Comments)几个文档规定的。 RFC821[11] 规定 SMTP(Simple Mail Transfer Protocol, 简单邮件传输协议 ),定义发送邮件的机制。 RFC1725[12]规定了 POP3(Post Office Protocol 3,邮局协议版本 3),定义了从 POP3 服务器收取邮件的机制。 RFC822[13]协议主要定义邮件格式。 根据需要传送各种非文本文件(例如图像文件、 word 文件、 pdf 文件、zip 文件等),人们又定义了 MIME 标准,作为 RFC822 的补充。 MIME 即 Multipurpose Inter Mail Extensions,多用途互联网邮件扩展协议,它由 RFC2045 到 RFC2049 几个标准构成。 目前几乎所有的邮件服务系统都支持 MIME 标准 [14]。 电子邮件的格式 一个完整的电子邮件地址格式如下: 即:用户名 @主机名 .域名 , @表示 “(at)”的意思, @的长春工业大学硕士学位论文 6 左边是电子邮件用户的登录名,右边是完整的主机名,它由主机名与域名组成。 其中,域名由几部分组成,每一部分称为一个子域 (Subdomain),各子域之间用圆点“ .”分隔 ,每个子域都会告诉用户一些有关这台邮件服务器的信息。 在 RFC2822《 Inter 信息格式》 中规定了电子邮件的标准格式。 电子邮件 是由 一行行文本组成,每行以回车符 (CR)和换行符 (LF)结束,一封完整的电子邮件包括两部分:信封 (邮件头 )和内容 (邮件体 ),邮件头和邮件体之间以一个空行来分隔。 下面是一封简单的邮件: (1) From: (2) To: (3) Subject:邮件格式 (4) Date: Thu, 8 Dec 2020. 11:21:19 GMT (5) (6) Hi, user1 (7) 邮件格式 (8) Thanks (9) User2 其中 1 至 4 行是信头, 6 至 9 行是信体,第 5 行是必须加的空行。 RFC 为信头定义了 20 多个标准字段,包括 Date、 From、 To、 CC、 BCC 等一些必须和非必须的字段,另外,信头在传输过程中并不是一成不变的,随着邮件的传输, MUA 和 MTA 会在信头上增加一些路径信息,它们合在一起构成收到的信件的信头部分。 下面简单介绍几。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。