一种p2p内容下载缓存系统设计和下载软件开发(编辑修改稿)内容摘要:

2P 流量检测技术,将所有经过 ISP 出口的 P2P 流量重定向到 P2P 内容缓存服务器中, P2P 内容缓存器完成 P2P内容数据的集中,然后再将这些 P2P 内容数据传送给请求的用户,使绝大多数的 P2P 流量控制在 ISP 内部,从而缓解 ISP 出口的带宽压力。 本文在深入分析当前 ISP 缓解网络带宽方案的基础上,结合 Web Caching 技术与 CDN内容分法网络的缓存系统 原理 , 提出基于 BitTorrent 应用的 P2P 内容下载缓存系统,并通过编写代码,实现用于 P2P 内容缓存服务的软件系统。 该系统应能够支持基于 BT 协议的 P2P下载控制 以及将 P2P 缓存服务器中存在的 P2P 内容数据高速的传送给请求该内容的用户。 目前,暂时还没有关于使用 P2P 内容缓存服务器的方式来引导 P2P 流量的研究方案和实用系统,因此本系统的研究为 P2P 合理有效的利用和监管提供了新的方向和思路,对 P2P技术的合理发展将起到一定的 促进 作用。 第 2 页 共 35 页 2 P2P技术介绍 传统资源共享方 式 在如今的互联网时代,资源共享是其非常重要的功能之一。 传统的资源共享方式主要是 C/S 模式(客户端 /服务器, Client/Server) ,其 主要由客户应用程序 (Client)、服务器管理程序 (Server)和中间件 (Middleware)三个部件组成 [2]。 客户应用程序是系统中用户与数据进行交互的部件。 服务器程序负责有效地管理系统资源,如管理一个信息数据库,其主要工作是当多个客户并发地请求服务器上的相同资源时,对这些资源进行最优化管理。 中间件负责联结客户应用程序与服务器管理程序,协同完成一个作业,以满足用户 查询管理数据的要求。 比较经典的应用有 FTP 和 WWW 服务 ,其是 FI39。 P,它的全称就是“文件传送协议”, FTP 协议以其稳定、高速、简单的文件传输而一直保持着 很大 的生命力。 C/S 结构在技术上很成熟,它的主要特点是交互性强、具有安全的存取模式、网络通信量低、响应速度快、利于处理大量数据。 但是 随着网络技术的不断发展和网络用户增多,服务器 非常容易产生瓶颈问题,影响用户的正常访问。 P2P网络共享方式 P2P 技术的诞生,彻底打破了传统的文件下载方式。 目前基于 P2P 技术的 BitTorrent协议的文件下载软件风靡全球, BT 的优越性在于克服了传统文件下载技术的速度瓶颈问题,文件的下载速度反而随着用户数的增加而得到提高。 P2P 网络 原理 P2P 是 peertopeer 的缩写,是一种分布式网络,网络的参与者共享他们所拥有的一部分硬件资源(处理能力、存储能力、网络连接能力、打印机等),这些共享资源需要由网络提供服务和内容,能被其它对等节点 (peer)直接访问而无需经过中间实体。 在此网络中的参与者既是资源(服务和内容)提供者( Server),又是资源获取者( Client)。 P2P 打破了传统的 C/S 模式,在网络中的每个结点的地位都 是对等的。 每个结点既充当服务器,为其他结点提供服务,同时也享用其他结点提供的服务。 P2P 的技术特点 见表 11: 表 11 P2P与 C/S模式统计数据之间的对比 性能 P2P 模式 C/S 模式 数据发布性 好 差 数据接收性 中 好 数据互动性 好 差 数据即时性 好 差 数据安全性 差 好 数据更新 好 差 数据质量 中 好 数据成本控制 好 差 数据管理方便性 差 好 第 3 页 共 35 页 P2P 网络应用模式 当初 Inter 产生和发展的主要动力是资源共享,这也正是 P2P 提出的最初目标,以P2P 技术为基础 的文件内容共享应用也是 P2P 最重要的应用。 同时,随着 Inter 的发展和人们对 P2P 思想的理解,其他一些基于 P2P 的应用也不断出现 [3]。 (1) 文件内容共享和下载 : 例如 Napster、 eDonkey、 eMule、 Maze、 BT、 迅 雷 等; (2) 计算能力和存储共享 : 例如 SETI@home、 Avaki、 Popular Power 等; (3) 基于 P2P 技术的协同与服务共享平台 : 例如 JXTA、 Magi、 Groove 等; (4) 即时通讯工具 : 包括 ICQ、 、 Yahoo Messenger、 MSN Messenger 等; (5) P2P 通讯与 信息共享 : 例如 Skype、 Crowds、 Onion Routing 等; (6) 基于 P2P 技术的网络电视:沸点、 PPStream、 PPLive、 Live、 SopCast 等 ; (7) 基于 P2P 技术的网络游戏; P2P 网络路由模型 所有的对等网络有一个共同点 ,那就是实际的数据传输是在资源的请求者与接收者间直接进行的。 但是 , P2P 的控制层面的实现有不同的方式 ,据此所有的对等网络的应用可以归结为如下 四 种体系结构 [4]:  集中式网络模型,中心服务器存储所有节点的信息的目录,而信息本身存在各个节点中。  分布式网络模型, 无中心服务器,各节点直接通过“洪泛”模式传递搜索消息。  混合式网络模型,引入了超级节点的概念,超级节点域内采用集中结构工作模式,超级节点之间是分布结构工作模式。  结构化网络模型, 一种采用纯分布式的消息传递机制和根据关键字进行查找的定位服务,目前的主流方法是采用分布式哈希表 (DHT)技术,这也是目前扩展性最好的 P2P 路由方式之一。 目前比较成熟的 DHT 协议主要有: Chord、 CAN、 Pastry、 Kademlia。 P2P流量的特征分析与识别 P2P 流量特征 (1) 数据量大。 对于资源共享和基于 P2P 技术的网络电视应用 来说,数据量是巨大的。 (2) 数据突发性强。 用户发送数据在时间上具有很大的随机性,分布不均匀。 (3) 高速传输。 由于 P2P 中每一个节点都是服务器,为其他节点服务,所以数据传输速率比传统 C/S 模式更快。 (4) 在线时间长 [5]。 P2P模式打破传统 C/S 模式,将服务器分散到每一个节点,节点在下载完毕时,仍然可以在线作为服务器,为其他对等节点服务,而且很多 P2P应用软件为了充分发挥 P2P 技术的优越性,都有一定的激励措施,鼓励用户长期在线。 (5) 上下行流量对称。 P2P 中的节点既是客户端,也是服务器,在下载的同时,也在为其他对等节点服务, 提供上传业务,因此,上下行基本对称。 (6) 业务分布广泛。 目前 P2P技术的应用很广,涉及到很多领域,在空间分布上也比较广泛。 第 4 页 共 35 页 (7) 连接端口不确定。 P2P 应用占据很多的带宽,因此在很多情况下, P2P 业务被屏蔽,为了解决这个问题,很多 P2P 应用软件端口可以根据用户要求改变。 (8) 连接 IP 地址特征 [5]。 P2P 是多点到多点的连接模式,因此,客户端同时与多个 IP地址建立连接,但在一段时间内平均连接每个 IP 地址的次数不多。 P2P 流量识别与检测 对于 P2P 流量合理有效地识别应该包含如下内容。 第一,对 P2P 流量的特征必须具有良好的分 布特征和可区分性 ;第二,识别 P2P 流量和整个 P2P 覆盖网络 ,这样才可能依此提出新的针对于 P2P 网络的积极防御模式和机制。 目前常用的流量识别方法 [6]主要有: (1) 端口匹配识别:完成固定端口的常规业务和 P2P 业务应用识别。 通过取出流中的源端口或者目的端口,然后查找常用端口映射表,如存在,则识别成功,并考虑伪端口的存在(如一些 P2P 为了伪装而借用常用端口),予以剔除。 (2) 净荷 检测识别:若通过静态的端口映射表无法识别,则表明这些流量是非标准协议或者动态端口的,需要采用特征字符串来匹配 净荷 的方式来识别这些业务或应用。 (常用 P2P应用流量特征比特串见表 31) (3) 连接模式识别:不同的业务其建立连接的方式都有相应特征,可通过 IP 地址和端口的相应关系识别 P2P 业务。 主要是统计( IP, port)所连接到的各个 IP、端口号、数据报大小和传送流量大小。 如果连接到的 IP 地址个数和 port 个数相近,则认为是 P2P 流量。 相反,如果连接到的 IP数和 port 数相差大到 10 个以上,则认为是非 P2P 流量。 (4) 拓扑特性识别:不同的业务其拓扑也有各自特征, 可通过分析协助识别。 (5) 应用协议分析识别:对于非标准协议的应用,但协议又是公开的,比如 eMule 等应用,可通过应用协议分析引擎对此类业务进行识别。 (6) (TCP/UDP) IP pair 法识别:根据观察和研究,同时采用了 TCP和 UDP 协议的应用绝大部分都是 P2P 流量,除了特殊的几个应用,如: DNS, NETBIOS, IRC,游戏和多媒体业务流量,但这些应用都有特定的端口,如 135,137,139,445,53,3531 等,可以通过端口匹配识别这些流量(见图 1),其余的业务流量同时应用了 TCP 和 UDP 协议的流量,即为 P2P 流量。 表 31 常用 P2P 应用流量特征比特串 P2P 协议名称 净荷比特字符串 eDonkey2020 0xe319010000 Fasttract “ Get ./hash” Bitterront 0x13Bittorrent protocol Ares “ Get hash:” (7) 流统计特性的识别:在 IP 层通过流量统计特征的方式识别 P2P 流。 P2P 流量具有长时固定连接 特点,因此理论上基于流状态的统计识别方式可以识别一切大规模 P2P 流量。 (8) 采用双向识别:当某个方向的流 (五元组定义的流 )被识别为 P2P 流,则其反方向流必然 第 5 页 共 35 页 也是 P2P 流。 对于衡量某种流量识别方法的好坏,其技术指标主 要有三个基本原则:( 1)尽量提高检测精度;( 2)在检测精度中偏重于降低虚警率( False Positive Rata, FP%) ,维持适当漏报率( False Negative Rata, FN%);( 3)维持适当的计算复杂度。 P2P应用对 ISP造成的影响 P2P 以其独特的技术优势在这几年内迅速发展,其应用不断增长。 互联网用户数的增长率一直保持在 10%到 20%,但是带宽的需求却呈现 300倍到 500倍的增长 ,其中带宽需求的增长来源则 主要 是 P2P 应用, P2P 应用的 流量已经远远超过了 应用的流量 , 成为Inter 流量的主体。 但是 , P2P 流量在所有 Inter 流量中的比例却由于所处地域的不同而存在着相当的差异 [7], 见表 12。 据统计目前 我国 P2P 流量占据了 70%80%的互联网流量。 表 12 2020年 Inter流量在不同地区的分布 area Asia Europe England America Popular P2P traffic (%) 64 53 43 61 Other P2P traffic (%) 18 3 17 6 Http traffic (%) 2 12 17 10 Other traffic (%) 16 32 23 24 注: Popular P2P traffic 主要是指 BT, eDonkey, FastTrack 以及 Gnutella 的流量 P2P 技术在中国的大规模应用是从 2020 年下半年开始 , 以 BT为代表的 P2P 技术急速升温 , 用户数量飞速发展。 作为一种新兴的技术 , 基于该技术的应用已成为互联网上最流行的应用之一 , 对整个通信产业和传媒业都带来了巨大的冲击 [8]。 (1) 对传统语音业务的冲击 VoIP( voice over IP) 业务 因其低廉的资费 冲击着传统的语音业务 , 据市场咨询公司IDC 称 , 到 2020 年底 VoIP 用户将达到 2700 万。 而 P2P 技术的出现 , 无疑是给 VoIP 插上了翅膀 , 使其保持 低资费 的条件下 , 大大提高了服务质量 , 其语音质量已与传统的 PSTN 语音相接近 , 进一步加速了 VoIP 对传统语音的替代趋势。 典型的代表就是 Skype。 P2P 的 VoIP 业务对传统语音业务形成了巨大的分流 , 同时也促使电信运营商降低价格应对竞争 , 导致了其收入的剧减。 (2) 对网络带宽的蚕食 在 P2P 应用出现之前,互联网的主要流量来自于浏览网页、 FTP 传输和邮件等,下载的业务类型基本上 都是基于 Client/Server 模式的 , 由于服务器容量等的限制 , 使用户接入带宽很少处于满的状态。 而 P2P 技术的出现 , 完全改变了这种状况 , 用户长时间在线与其他用户共享 信息 , 用户接入带宽长时间处于饱和状态 , 网络流量急剧上升。 目前 , P2P应用早 已超过 HTTP 应用 , 成为互联网上最为普遍的应用 , 给运营商带来了新的挑战。 P2P 应用使 ISP 陷入困境。 一方面 P2P 应用是最终用户的 需求 , 现有的网络结构却难以 第 6 页 共 35 页 完全满足 ; 另一。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。