基于hadoop的分布式存储平台的搭建与验证毕业设计论文(编辑修改稿)内容摘要:

....................................................................... 25 4. 1 云安全技术 ................................................................................. 25 4. 1. 1 可信访问控制 ....................................................................... 25 4. 1. 2 密文检索与处理 .................................................................... 25 4. 1. 3 数据存在与可使用性证明 ...................................................... 26 4. 1. 4 数据隐私保护 ....................................................................... 26 4. 1. 5 云资源访问控制 .................................................................... 27 4. 1. 6 可信云计算 ........................................................................... 27 4. 2 Hadoop 企业级应用的弱点分析 ............................................... 28 4. 2. 1 Hadoop 系统单点设计瓶颈 .................................................... 28 4. 2. 2 作业调度方式单一 ............................................................... 28 4. 2. 3 异构平台兼容性 .................................................................. 29 第五章 hadoop安全协议 ................................................................................... 29 5. 1 RPC ............................................................................................... 29 5. 1. 1 工作原理 .............................................................................. 30 5. 1. 2 协议结构 .............................................................................. 30 5. 1. 3 Hadoop RPC机制及原理 ......................................................... 31 5. 2 Kerberos ..................................................................................... 34 北京交通大学毕业设计(论文) 5. 2. 1 Kerberos 介绍 ....................................................................... 34 5. 2. 2 Kerberos协议结构 ................................................................ 35 5. 2. 3 Kerberos 的基本协定 ........................................................... 43 5. 2. 4 Kerberos 缺陷 ....................................................................... 44 5. 3 IPC ............................................................................................... 44 5. 3. 1 IPC 建立的过程 ..................................................................... 45 第六章 结束语 ................................................................................... 45 附录 I: 翻译原文 ............................................................................................ 47 中文翻译 ................................................................................................. 47 参考文献 ................................................................................................. 86 第一章 前言 1. 1 课题研究背景 分布式文件系统( Distributed File System)指 的是 文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节 点相连。 分布式文件系统的设计基于客户机 /服务器模式。 一个典型的网络可能包括多个供多用户访问的服务器。 另外,对等特性允许一些系统扮演客户机和服务器的双重角色。 例如,用户可以 “发表 ”一个允许其他客户机访问的目录,一旦被访问,这个目录对客户机来说就象使用本地驱动器一样,下面是三个基本的分布式文件系统。 1. 2 分布式文件系统 分类 1. 2. 1 GFS 系统 北京交通大学毕业设计(论文) 在设计目标上与其它的分布式文件系统相似,比如数据可靠性、系统可扩展性、可用性、健壮性、可伸缩性等。 但是它又不同于普通的文件系统,它完全针对 Google公司需求 而设计的。 GFS是非开源分布式文件系统。 Google的核心数据就是页面索引。 GFS专门对页面索引存储进行优化。 GFS和普通分布式文件系统一样都是采用廉价的计算机搭建文件系统集群。 GFS和大多文件系统一样都是采用单主机节点主从式架构。 它包含两类节点,元数据节点和数据节点。 用户通过客户端来访问整个文件系统。 对于文件存储的处理,分布式文件系统大多将文件分割成数据块然后分配给数据服务器存储。 GFS也采用这种方式,不同的是 GFS中数据块以 Linux文件形式存储。 并且 GFS根据设计目标提供了很多相应的策略来达到性能指标 ,包括数据块副本备份、文件与数据块的映射、以及被删除文件的垃圾回收和系统中文件的负载均衡。 之后的分布式文件系统也借鉴了 GFS的一些设计理念,比如 HDFS。 北京交通大学毕业设计(论文) 1. 2. 2 蓝鲸分布式文件系统 蓝鲸分布式文件系统( Blue Whale File System, BWFS) 是国家高性能计算机工程技术研究中心承担的国家 ―863‖重点支持课题研究成果得到的产物。 企业需要处理大规模数据,并且需要有高性能的数据处理能力,这样的需求就诞生了支持集群的 BWFS。 集群的效果是明显的,也是大势所趋。 利用大量计算机组成一个集群体系结构,以此提供高性能计算能力 [10]。 传统的分布式文件系统比如 NFS、 CIFS等采用的是集中式存储结构,这种方式使得集群的低数据 I/O能力与系统的高计算能力不匹配。 数据传输在传统分布式文件系统中存在瓶颈。 中科蓝鲸的研究人员通过自己的技术克服了这一瓶颈,采用集群技术,使用多个存储设备组成集群,提高了数据传输效率。 虽然 BWFS借鉴了国外一些技术,但主要有自己的创新。 蓝鲸文件系统采用了新型结构,网络可扩展体系结构。 并且采用虚拟存储技术将多个 存储设备上的资源合并成统一的存储空间,进行高效数据管理。 BWFS目前可以运行在 Red Hat Linux 、其它厂商的 Linux、微软 Windows 2020等操作系统中,向上千个客户端提供并发文件访问服务,提供 PB级的数据存储容量, GB级的传输带宽。 BWFS目前在石油勘探处理、信息检索与处理、数字媒体、遥感、高能物理研究等领域有广泛的应用,为我国工业、国防、科技发展做了很大贡献。 并且 BWFS的后续系统也一直在研究中,相信我国自主开发的分布式系统能够为国家做更大贡献。 1. 2. 3 FastDFS FastDFS 是一个类似 GFS 的开源分布式文件系统。 它是由国人参与开发的,这个是除蓝鲸文件系统外国内比较有名的文件系统。 FastDFS 主要针对互联网应用,继承了 GFS 的一些设计理念,包括数据备份,节点负载均衡。 同时 FastDFS 也有自己独特之处。 FastDFS 相较于其它类 GFS 分布式文件系统,更加轻量级。 它包含两个角色, Tracker Server 和 Storage Server。 FastDFS 同样采用 Tracker Server 作为中心节点 [13]。 中心节点的作用在于服务调度和负载均衡。 而 Storage Server 和其它文件系统中的数据节点一样具有数据存储功能。 一般分布式文件系统的中心节点需要记录很多信息,占用很多内存。 这种系统的中心节点会成为系统的瓶颈,而国人在设计 FastDFS 的时候,注重它的轻量级特点,内存占用少。 另外FastDFS在数据存储上的设计也比较有特点。 它采用一种分组存储的方式。 多台机器可以组成一个组,而一个活多个组组成一个集群。 用户可以指定数据上传到哪个组,这样用户其实可以动态缓解一些访问压力大的分 组。 另外这种分组策略能够方便的扩充存储能力,包括组内添加机器的总想扩容和添加新组的横向扩容。 FastDFS 的结构也不太同于普通文件系统,它北京交通大学毕业设计(论文) 可以拥有多个中心节点,它们之间是对等关系。 FastDFS 不只在分布式文件系统的发展上作出贡献,同样在开源方面也有很大贡献。 另外近几年国内外对 Hadoop 的热捧,使得对 HDFS 的关注更加多了。 HDFS 作为 Hadoop 数据存储的核心。 Hadoop 项目由 Yahoo 发起并推动,最后成为 Apache 下的子项目。 在 Yahoo,有最大的 Hadoop 集群,集群中有 4000多个节点, 70PB的数据量,并且每天 10TB的数据量增长。 Facebook作为国外知名社交网络运行着世界第二大 Hadoop 集群系统。 而国内很多公司也逐渐研究和使用 Hadoop。 例如百度、阿里、腾讯、华为等。 特别是华为在 Hadoop 上的贡献比较多。 这些公司都将 Hadoop 作为公司未来数据存储处理的一个解决方案,不遗余力地宣传推广 Hadoop[1]。 总的来说,分布式文件系统的发展在国内外都是很迅速,并且也是一个长期研究的课题,特别是对 Hadoop 的研究应该是未来几年的重点。 1. 3 课题研究目标和本文的主要工作 本文通过 使用 HADOOP 平台,对 hadoop 平台进行了实现并研究了其安全机制。 这包括: (1) 对 HADOOP 平台下的 HDFS(分布式文件系统)和 MapReduce 的核心架 构、技术以及相关的机制进行了分析和研究,这为分析其安全机制打好了基础。 (2) 对安全机制进行了综合的讨论,对数据挖掘流程进行梳理。 (3) 在上面的基础上提出了安全策略。 (4) 搭建完成基于 hadoop 的分布式文件系统并验证其性能,MapReduce 的编程模式,采用相应的并行策略将其移植到 HADOOP 平台进行分布式计算。 本文给出了 算法的详细过程。 ( 5)从理论上分析了 hadoop 的安全问题并提出解决策略。 1. 4 论文组织结构 第一章阐述了课题的背景及意义。 介绍了分布式文件系统。 提出了本文研究的主要内容。 第二章详细介绍了 HADOOP 框架的核心技术架构,对 HDFS 和MapReduce 的相关特性,机制进行了深入的讨论。 第三章描述了平台的实现过程并验证其有效性。 第四章描述了 HADOOP 的安全问题。 第五章提出了 hadoop 自身的安全机制并提出新的安全机制。 北京交通大学毕。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。