internet电子邮件过滤器的设计毕业论文(编辑修改稿)内容摘要:
日益关注,研究人员纷纷提出了自己的技术方案:信誉评分技术、基于信号检测理论、图片识别 技术 、意图分析技术和分布式邮件过滤技术等等。 由此得出结论 国内外 有关 垃圾邮件过滤的研究 现状 ,可以分成两种趋势 [9]: ① 发达国家 (尤其 是英语国家,如美国、英国、加拿大、澳大利亚等,这些国家同时也是垃圾邮件的 重患 区 )倾向于研究 反垃圾邮件基础理论 知识 , 将一些新理论与新方法融入到反垃圾邮件技术领 域。 ② 非英语发达国家和发展中国家 [10](如中国、德国、瑞士、韩国、日本、巴西 )则 更倾向于把反垃圾邮件的研究成果运用到生活中。 但是,其中不乏一些国家对已经有的反垃圾邮件理论和技术进行改革与创造性的工作。 最新过滤技术 针对新的垃圾邮件的问题,也要有新的解决方案来解决这些新的问题。 那么,相应的垃圾邮件过滤技术也应用而生了,主要有以下的新技术 [11]: ① 发件人特征识别技术 (Predictive Sender Profiling)。 特征识别技术 是指那些盗用身份而发送邮件过滤的技术,这样就需要对发信 者的身份进行验证,并且要对发送垃圾邮件的发送者进行预测。 如列出制造垃圾邮件者的行为特征, 加强对邮件的身份验证等。 ② 信誉评分技术 (IP Reputation)。 对用户使用电子邮件的情况分析并进行信誉评分。 Inter 电子邮件过滤器的设计毕业论文 4 例如办理手机卡一样,如果信誉低,会被进入黑名单,不再予以办理任何业务。 因此,如果该电子邮件信誉差, 被列入黑名单,那么就不能收发电子邮件, 他所发送的邮件就被视为垃圾邮件而被抛弃。 ③ 多重图片识别技术。 垃圾邮件为了逃避基于内容的过滤技术,将文本内容改为图片形式,把垃圾内容嵌入到图片中进行发送,对于图片邮件过 滤技术,主要有图片垃圾邮件指纹识别技术。 主要是把新处理的图片采用不同颜色 对比、文字背景 等进行组合统一进行比对,然后进行过滤。 ④ 意图分析技术 [12](Intention Analysis)。 主要是猜测垃圾发送者为什么要发送垃圾邮件 ,对垃圾邮件的 发送 意图进行分析,分析它们发送的意图和行为能够更好地过滤邮件。 因为不同的时间,发送垃圾邮件的意图是不同的,因此要 随时洞察它的意图 并 对其进行阻断 ,所以分析意图就更为重要了。 大多数的垃圾邮件发送者的动机是想让用户点击 某个 URL 地址 或各种广告宣传品等 ,垃圾邮件内容隐藏在了 URL 链接当中,其它的基于内容的过滤 技术 没有办法将其过滤,通过分析垃圾邮件的这个意图 ,然后对 URL 的链接做出相应的处理来过滤电子邮件。 所以要对常用的垃圾邮件网络 URL 地址构成的数据库进行更新与维护,这样就 有利于对垃圾邮件的过滤,能够通过该 URL 地址来阻断垃圾邮件。 从而实现垃圾邮件过滤。 论文主要内容和章节安排 主要内容 本文主要设计实现基于内容的垃圾邮件过滤器,完成垃圾邮件过滤的功能。 本文的主要内容为 以下几个方面: ① 垃圾邮件相关知识的研究 , 首先概括了垃圾邮件的 研究背景,当前的现状, 以 及危害,随后研究了电子邮件的工作原理和相关邮件协议,并对三种垃圾邮件过滤手段进行归纳总结。 ② 通过比较选用更加合理有效的邮件预处理技术 (包括邮件内容提取,邮件解码,中文分词,特征词提取,特征库等 ),从而更好的设计出垃圾邮件过滤器。 ③ 设计了垃圾邮件过滤系统的总体架构。 ④ 合理的设计了 邮件预处理过程,包括邮件内容的提取,电子邮件解码的实现,中文分词的实现,以及特征词提取的实现。 ⑤ 完成并 实现了垃圾邮件过滤器,主要包括包括预处理过程、训练过程、分类过程和测试过程。 Inter 电子邮件过滤器的设计毕业论文 5 章节安排 本文的章节安排如 下: 第一章为绪论,首先 概括 了垃圾邮件的 研究背景 ,其次简述了垃圾邮件的研究意义,最后 概括了国内外垃圾邮件的过滤技术的的现状和最新的过滤技术及常用的过滤技术。 第二章主要研究和总结了电子邮件的相关原理,包括电子邮件过滤的 基本理论 知识 、相关协议 (主要包括 SMTP 协议, POP3 协议、 IMAP 协议等重要协议 )和电子邮件编码格式 (MIME 编码、 Base64 编码、 QP 编码等 )等。 并且对目前常见的几种垃圾邮件过滤技术进行了简要的概述。 第三章 主要研究了 贝叶斯技术,它基于统计的原则,根据用户认为的垃圾邮件和合法邮件 的数量 进 行统计计算,具有循序渐进的功能,可以逐渐取得好的效果。 本章首先介绍了贝叶斯技术的相关背景知识和基本原理、公式,使我们对其有了大体的了解 , 接着,本章着重介绍了其中的朴素贝叶斯算法及其在垃圾邮件过滤领域中的实际应用。 第四章 主要介绍了邮件过滤系统的总体设计,第一节 简单 介绍了系统的设计 及流程 ,第二节主要介绍了本过滤系统的 主要构成模块 包括邮件预处理模块、训练模块、分类模块等。 第五章 主要设计和实现了预处理模块,包括对汉字解码 (先进行 MIME 解码,再进行汉字解码,最后进行汉字解析 )、特征词提取 (本系统采用文档频率法实 现 )、中文分词 (本系统采用正向最大匹配算法实现 )、去除停用词等过程的设计实现,并给出了相应实现步骤和具体流程。 最后进行了系统测试,给出了测试结果。 第六章总结与展望。 总结了本文的主要工作,分析了本系统的优点和不足,并展望了系统可能的改进方法。 Inter 电子邮件过滤器的设计毕业论文 6 2 垃圾邮件过滤的基础知识和相关技术 电子邮件是自 Inter 问世后最早的应用, 它 一出现就得到了广泛的喜爱和青睐,用户可以用非常低廉的价格 [13],以非常快速的 方法 ,与世界上任何一个角落的网络用户联系,使世界范围内的即时通信变为可能,并且随着技术的进步,电子邮 件不仅可以传送文字,而且可以传送图象、声音等各种音视频文件 [14]。 正是由于电子邮件的使用简易、投递迅速、收费低廉,易于保存、全球畅通无阻,使得电子邮件被广泛地应用,它使人们的交流方式得到了极大的改变。 电子邮件过滤基础知识 电子邮件工作原理 电子邮件的工作原理为 [15]:当用户要发送电子邮件时, 首先, 通过 MUA(邮件用户代理 )来编辑邮件,然后通过 MTA(邮件传输代理 )将邮件传送到发送端邮件服务器上,发送端邮件服务器将该邮件存入自身的缓存区内,然后根据邮件的收件人地址通过域名解析得到接收 端服务器的 IP 地址,再通过 MTA(邮件传输代理 )传送到接收端邮件服务器上,接收端邮件服务器收到该邮件后,根据邮件的收件人地址将邮件通过 MDA(邮件投递代理 )投递到收件人的邮箱,收件人通过 MUA(邮件用户代理 )即可看到邮件信息。 其传输过程如图 21 所示。 邮 件 传 输 代 理 M T A 邮 件 传 输 代 理 M T A待 发 送 邮 件 队 列 邮 件 投 递 代 理 M D A用 户 代 理 M U A终 端 用 户用 户 邮 箱用 户 代 理 M U A终 端 用 户 图 21 电子邮件传输原理图 Inter 电子邮件过滤器的设计毕业论文 7 下面补充解释邮件传输过程中的重要概念。 MUA(Mail User Agent),邮件用户代理。 MUA 是用户用来查阅或者编辑邮件的代理,所有的邮件都是由邮件用户代理发出 的,在整个邮件系统中,用户仅仅接触到邮件用户代理,并不需要了解邮件传输的内部过程 [16]。 MTA(Mail Transfer Agent),邮件传输代理。 MTA 是邮件在网络上用于传输的代理,可以在用户与服务器或者服务器与服务器之间传输邮件,并通过目的地址选择传送邮件的合适路径。 MDA(Mail Delivery Agent),邮件投递代理。 MDA 是服务器向收件人邮箱投递邮件的程序,他根据收件人的邮箱地址信息找到收件人的邮箱,并将邮件投入邮箱中。 电子邮件相关协议 1. SMTP 协议 SMTP(Simple Mail Transfer Protocol)简单邮件传输协议 [17],是互联网上传输电子邮件的标准协议,主要 是运用传输系统,然后提供传输邮件,并且对来信进行相关的通知。 它属于 TCP/IP 协议族,提供一种面向连接的可靠的服务,他控制着电子邮件从发送端地址到目的端地址的传输以及中转机制。 SMTP 协议规定,若发送端服务器和接收端服务器同处于一个网络之中,则允许直接传递,否则,必须经过中转服务器进行传递。 SMTP是一种独立的传输子系统,并且是特定的,必要的是要有可靠有序的数据 流信道支持。 它使用 TCP 的 25 号端口做为默认端口进行传输。 2. POP3 协议 POP3 (Post Office Protocol)邮局协议 [18],是目前应用最广泛的邮件接收协议,规定了收件人如何从服务器接收邮件的规则,属于离线式工作协议。 在离线工作方式下,若用户想发送或者接收一封邮件时,都需要首先要通过 POP3 客户端代理来登录支持 POP3的服务器,通过该 POP3 服务器发送或接收邮件 , 当用户要接收邮件时,需将全部邮件下载到本地,邮件服务器将随后删除这些邮件的信息。 POP3 支持离线的工作方式,并且支持在线的工作方式。 当在在线 工作方式下收发邮件时,用户可以在邮件服务器上直接读取邮件,不需下载到本地,而且邮件服务器也会继续保留用户的邮件,不会删除。 3. IMAP 协议 IMAP ( Inter Message Access Protocol)网际消息访问协议 [19],也是一种邮件接收协议,他允许用户通过查看邮件头信息来决定是否读取、删除或者查找邮件,还允许用户在服务器上新建或者修改文件夹。 它不仅使用户能够有选择的从邮件服务器接收邮件,并且能够支持基于服务器的信息处理功能,还有 共享信箱 的 功能。 IMAP 能够提供脱机工Inter 电子邮件过滤器的设计毕业论文 8 作,联机工作 和断连接工作方式。 IMAP4 的脱机方式下工作时,不会主动清除在邮件服务器上己被下载的邮件。 4. 电子邮件编码格式 现在的电子邮件通常采用 MIME(Multipurpose Inter Mail Extensions)编码 [20],即多用途互联网邮件扩展编码, 它 使得一些超文本文件能够在网络上进行传输,如图片、音频、视频等二进制流数据。 利用 MIME 编码方式。 可以允许邮件中含有不同编码方式的文件,解决了原来只能传送一种编码格式的缺陷。 MIME 编码格式不仅广泛应用在电子邮件上,而且也己成为超文本传输协议的一 个组成部分。 MIME 协议诞生之前,电子邮件中只能传输 7bit 的 ASIIC 码, 但是 8bit 内码的字码却不能传输, 这使得一些不使用英语的国家不能使用电子邮件,所以计算机工作者们才发明了 MIME 编码, 其设计思想是,在发送的的地方将 8bit 转化为 7bit 的内码, 在接收端进行解码,将编码后的字串还原为 8bit 的原码。 MIME 编码算法简单,易于理解,己经成为当今主要的邮件编码方式,不仅是用来传送 8bit 的字符,也可以用来传送二进制的文件,如邮件中包含的的图片、视频等信息。 MIME 主要定义了两种编码方法 Base64 和 QP(QuotePrintable)[21]。 下面将分别进行介绍。 1) Base64 编码 Base64 编码操作简单,易于理解,是目前网络上使用最广泛的一种编码规则,尤其是在电子邮件的编码处理方法中,它己经成为了主流方向。 Base64 的实现方法为 [22]:从字符流中依次取 3 个 8bit,然后平均分为四段,每段含有 6 个 bit,每 6 个 bit 前加两个 0,形成新的 8bit 段,计算新形成的每个 8bit 段的十进制值,最后在 Base64 编码表中查找对应的字符 (编码表中包含 ‘ AZ’,‘ az’,‘ 09’,‘ +’,‘ /’, 这些字符分别对应十进制数 ‘ 064’, 还包含一个 ‘ =’ 用来作为补足码 ),并用该字符表示,这样就完成了 Base64 的编码过程。 当然还存在一种情况就是当字符流中仅有一个或者两个 8bit 字符时,此时仍然从高位向低位每次取 6bit,当不足 6bit 时低位补 0,6bit 段的个数不足 4 个时,用 ‘ =’ 补足。 这就是 Base64 完整的编码过程。 2) QP 编码 QP 即 QuotePrintable 的缩写,多数情况下用于电子邮件的中的编码格式,该方法实现起来最简单但是编码效率也最低。 QP 编码原理是 : 将 8bit 的字符用两个 十六进制数来表示,并在编码后的字符前加‘ =’, 所以在 QP 编码后的文件中会含有大量的 ‘ =’ ,如: =BF=A1=C7=E5=A3=AC=C4=FA=BA。 而 7bit 的字符则直接输出,不需要编码,不Inter 电子邮件过滤器的设计毕业论文 9 用编码的字符的 ASCII 分布在 3360, 62126 的范围内。 电子邮件过滤方法 邮件过滤从其本质上来讲就是对邮件的一个分类,即将邮件分为合法邮件和不合法邮件两类。 根据对电子邮件系统的组成及工作原理的学习,我们可以从邮件中提取出一些几个关键的地方:收件人、发件人、邮件头、邮件正文。 在进行邮件过滤的时候也就是 从邮件的这几个部分提取特。internet电子邮件过滤器的设计毕业论文(编辑修改稿)
相关推荐
性大交通建设取得了重大成就。 杭瑞高速公路、湖彭高速公路、 215 省道、 302 省道等一批铁路、公路、水运重要基础设施的建设使都昌的地区性交通枢纽性质日趋强化,乡村公路改造工程全县硬化路面通村率达 %。 公路运输在都昌县各种运输方式占有重要的作用。 在现有公路网中,已形成了以县城为中心,以蔡岭、中馆为重要节点,向外发散的路网构架。 现都昌境地内主要公路干道有 4 条
是指议付行在审单无误情况下,按信用证条款买入受益人(外贸公司)的汇票和单据,从票面金额中扣除从议付日到估计收到票款之日的利息,将余款按议付日外汇牌价折成人民币,拔给外贸公司。 议付行向受益人垫付资金买入跟单汇票后,即成为汇票持有人,可凭票向付款行索取票款。 银行做出口押汇,是为了对外贸公司供资金融通,有利于外贸公司的资金周转。 18 二、进口合同的履行 开立信用证 安排运输和办理保险 审单和付款
菜。 当客人示意要点菜时,领班应马上走到客人的右后方,稍弯腰,拿出点菜单,仔细聆听客人要点的菜,并在点菜单上作出明确的记录,并记录好每个客人的方位,分清他们每个人所点的菜及饮料,及他们的桌号。 点菜时要问清楚他们是否要分单,如是 分单的,下入厨单时要分开下,并注明是哪个客人的。 点菜时,领班或服务员要及时向客人推荐本餐厅的特色菜,及根据客人所点的菜式,推销相应的酒类。 当客人点沙律时
国家计委《关于实行建设项目法人责任制的暂行规定》的通知精神,由 项目 负责人 组建成项目 建设领导班子 ,对建设项目进行策划、筹资、工程实施、质量保证、资产管理、项目竣工等一系列工作全面负责。 项目承办单位: 武警支队 项目法 人代表: 卢 鹏 项目管理班子成员如下 15 姓名 工作单位 职务 卢 鹏 武警支队 支队长 聂洪昌 武警支队 政 委 初 龙 武警支队 后勤处长 项目法人有关委托事宜
底上的草皮,坑穴中的积水、淤泥和杂物,并应采取措施防止地表滞水流入填方区,浸泡地基,造成基土下陷。 因填土场地地面陡于 1/5 时,应先将斜坡挖成阶梯形,阶高 200300MM,阶宽大于1M,然后分层填土,以利于接合和防止滑动。 填土土料的含水量的大小,直接影响到碾压质量,在碾压前应先试验,以得到符合密实度要求条件下的最优含水量和最小碾压遍数。 各种土的最优含水量之差可控制在
35 附 录 36 一、英文原文 36 二、 英文翻译 39 重庆邮电大学移通学院本科毕业设计(论文) 1 前 言 随着生活水平的提高,人们已不再满足于衣 食住的享受,出行的舒适已受到越来越多人的关注。 于是,出租车行业以低价高质的服务给人们带来了出行的享受。 但是总存在买卖纠纷困扰着行业的发展。 然而解决这一矛盾的最好方法就是改良出租车的计价器,用更加精良的计价器来为乘客提供更加方便快捷的服务