云计算文件系统的实现毕业设计(论文)(编辑修改稿)内容摘要:
op 架构平台可以给出云计算的执行过程如下图所示。 云计算架构 Hadoop MapReduce API (Map,Reduce) BigTable (分布式数据库 ) GFS( Goole 分布式文件系统 ) 南华大学计算机科学与技术毕业设计(论文) 第 12 页 共 54 页 图 云计算的执行过程 Hadoop 作为应用最广泛的云计算编程环境所以它有着大量的优点: 1)可扩展性:不管是计算机的扩展性还是存储的扩展性都是 hadoop 设计的基础对 hadoop 的设计十分重要, hadoop 的扩展性十分的简单,不用修改已有的任何结构。 2) Hadoop 很可靠: mapreduce 的监控和分布式文件系统备份恢复机制使hadoop 有了很高的可靠性。 3)对硬件要求低: hadoop 架构能在任何计算机上执行,对计算机没有什么特殊的要求。 MapReduce API Master Worker1 worker2…… ..workern 选择执行Map 程序的 Worker机器 分配数据块到执行map 的机器执行 将 map 结果存到本机磁盘 选择执行Reduce程序的worker 机器 结合 GFS 和BigTable 读取远程Map,混合、汇聚、排序,执行 Reduce 南华大学计算机科学与技术毕业设计(论文) 第 13 页 共 54 页 Hadoop 得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载 (ETL)方面上的天然优势。 Hadoop 的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像 ETL 这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。 Hadoop 的 MapReduce 功能实现了将单个任务打碎,并将碎片任务发送 (Map)到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。 Hadoop 的最常见用法之一是 Web 搜索。 虽然它不是惟一的 软件 框架 应用程序 ,但作为一个并行 数据处理 引擎,它的表现非常突出。 Hadoop 最有趣的方面之一是 Map and Reduce 流程,它受到 Google 开发的启发。 这个流程称为创建索引,它将 Web 爬行器 检索到的文本 Web 页面作为输入,并且将这些页面上的单词的频率报告作为结果。 然后可以在整个 Web 搜索过程中使用这个结果从已定义的搜索参数中识别内容。 MapReduce 分布式处理技术的介绍 MapReduce 是 Goole 开发的 c++、 java、 python 的编程工具,用于大规模的数据集的并行运算,同时也是云计算的核心 技术,一种分布式运算技术,也是简化的分布式编程模式,适合处理大量的数据的分布式运算,用于解决问题的程序开发模式,同时也是开发人员解决问题的方法。 MapReduce 模式的运行方式是将问题拆分为 Map 映射和 Rduce 化简的方法,先通过映射程序将数据分割成不相关的区块,调度非大量计算机处理达到分布式运算的效果,然后通过化简程序将结果整合起来,最后输出开发者需要的结果。 MapReduce 软件实现是指定 一个 映射函数,把键值对( key/value)映射成新的键值对,并形成一系列的中间形式的 key/value 对,在把他们传给化简函数,把有相同中间形式的 key 及 value 合并在一起。 这里的 map 及 reduce 具有一定的关联性,如表 所示。 南华大学计算机科学与技术毕业设计(论文) 第 14 页 共 54 页 表 map、 reduce 关联表 其中 v v2 即可以使简单数据,也可是一组数据,对应不同的映射函数规则。 在 map 过程中将数据并行,就是把数据用映射函数分开,而 redduce 是把分开后处理过的分开数据用化简函数的规则在整合在一起,其实就是 map 函数是将数据分开的过程,而 reduce 则是对应的整合数据。 使用 mapreduce,即使编程人员不会分布式并行编程的情况下,也同样可以将自己的程序运行在分布式系统上。 Mapreduce 的应用也十分广泛包括简单的计算任务、集群计算环境和海量输入数据等。 MapReduce 架构 MapReduce 主要用于处理产生大数据集的相关实现。 用户指定一个映射函数来处理一个 key/value 对,从而形成一些列中间形式的 key/value 对。 然后再指定一个化简函数合并所有的具有相同中间形式的 key 的 value 合并在一起。 下面将通过举例来反应 mapreduce 的架构形式。 Mapreduce 的主从结构: 主节点,只有一个 : JobTracker 其主要的功能负责接收客户提交的计算任务、把计算任务分配给 TaskTrackers 执行、监控 TaskTracker 的执行情况、 从节点,有很多个: TaskTrackers 它的主要功能是执行 JobTracker 分配的计函数 输入 输出 Map Reduce ( K1, l1) ( k2, list( v2)) List( k2, v2) List( v2) 南华大学计算机科学与技术毕业设计(论文) 第 15 页 共 54 页 算任务。 下面为举例查看 mapreduce 架构报表系统,数据库和数据仓库会设计的比较麻烦,送一个指令给数据库。 报表内存可能小于数据库数据,不能一次性加载,可以采用分布读取,但十分慢,报表系统负责计算的性能远远低 于数据量本身。 数据量本身远远超过了计算能力,只能用时间换空间。 怎么改进。 如果都跑相同的报表系统,跑多台,上面做累加,但是数据库这块分成三份,北京一个库,河北一个库,可以报表 1 系统跑北京数据,报表系统 2 跑天津数据,这样每个报表处理的数据量处理为原来的一部分。 再找一台服务器进行汇总,汇总只是加上,逻辑是不一样的。 如果要处理海量数据,从目前硬件的局限,只能是运行很多的服务器来处理海量数据,运行少量的服务器处理中间结果。 把逻辑拆分不同的系统中。 MapReduce :汇总和报表系统。 报表叫 map 最后的 汇总叫 reduce .让一个节点关系管理这些东西, Map 和 reduce 在管理上看没有什么差别,由他分配谁是什么角色。 其 mapreduce 架构图形如下。 这一部分是mapreduce 报表系统一 Map 报表系统 2 报表系统 3 管理节点 客户 数据库是分布式的 汇总系统 reduce 南华大学计算机科学与技术毕业设计(论文) 第 16 页 共 54 页 图 报表 mapreduce 架构图 HDFS 简介 HDFS 是 Hadoop 实现的一个分布式文件系统, HDFS 具 有高 容错性 的特点,为了保证数据的一致性,一般都采用一次写入,多次读取的方式。 并且设计用来部署在低廉的( lowcost)硬件 设备 上 ,它有单一的文本空间, 而且它提供高传输率( high throughput)来访问 应用程序 的数据,适合那些有着超大数据集( large data set)的应用程序。 HDFS 放宽了( relax) POSIX 的要求,可以以流的形式访问( streaming access)文件系统 中的数据。 其中 HDFS 他把数据分成很多很小的快,以 64M 的大小为一个快,块是磁盘上最小单位。 每个数据块( block)在很多个从节点存有数据,客户端是通过主节点获取数据块的位置,然后访问从节点获取数据。 ( 1)与普通文件系统的比较 分布式文件系统较普通的文件系统而言,其相同的是分布式文件系统中的文件也是被分成以大小为 64MB 为一块的数据块存储的,而与普通的文件系统不同之处在于,当一个文件的大小不足 64mb 时,则这个文件将不占用整个数据块。 ( 2)主从结构 首先介绍主节点和从节点。 主节点:只有一个 Namenode, 其主要的功能责任是接受用户的操作请求、 维护文件系统的目录结构,便于对文件进行分类管理及管理文件与 Block 之间关系, Block 与 Datanode 之间关系。 从节点:有很多个 Datanode,它的主要功能职责是存储文件,当文件被分成很多数据块时,将其存放在磁盘上。 下面我们通过一个主从节点的例子在了解一下主从结构。 主从结构: 须有地方存储服务器和磁盘的映射关系。 和具体数据的对应信息。 又叫做元数据信息。 检索数据更快的话,先访问元数据。 所有的节点信息,包括容量信息(不断变化, 需要通过节点和元数据不断可以通信,经常通信可以称为心跳机制,节点不停向元数据发送信息,元数据的职责已经改变,管理各个节点的资源情况)都在元数据节点上注册,元数据,索引机制,数据量越大,价值越能体现出来。 引出角色划分:继续增加节点的时候会比较麻烦。 节点上面跑程序,不停的 南华大学计算机科学与技术毕业设计(论文) 第 17 页 共 54 页 发送信息。 节点上面跑服务,不会停止。 调用元数据函数,传入形参,我节点的信息。 元数据职责,处理每个节点的信息。 客户可以和节点通信,也可以和元数据通信,也可以元数据和节点通信。 元数据就是 Namenode,主节点。 下面通过一个 例子的图来了解一下元数据维护文件和快的关系,以及快与所在节点的关系。 图 主从结构图 ( 3) 文件系统的名字空间 传统的文件组织体系结构是被 HDFS 所支持的,程序或用户可以创建目录,并在其中存储自己想要存储的文件。 名字空间结构与大多数文件系统是十分相似的。 用户可以对文件进行删除、创建或者让文件从一个目录移到另外一个目录以及对一个文件进行重命名等操作。 就现在的 DHFS 而言还不能实现访问权限控制及用户配置,也不支持软硬连接。 然而,就现在的 DHFS 这些性能都不会被影响到。 元数据 (管理节点) 节点 磁盘 a 节点 磁盘 b 节点 磁盘 c 服务器 心跳机制 南华大学计算机科学与技术毕业设计(论文) 第 18 页 共 54 页 HDFS 体系结构 在 HDFS 中,是由给定的名字节点 NameNode 来管理一些文件系统的名字空间操作的,例如打开和关闭及重命名目录或文件。 名字节点 NameNode 会将block 映射到数据节点 DataNode 上,并处理来自 HDFS 客户端的读或写请求。 DataNode 数据节点还根据 NameNode 名字节点指令删除、创建及复制数据块。 HDFS 体系架构,如下图所 示。 图 DHFS 体系结构 从 DHFS 体系结构图可以看出,一个集群包含一个主节点,使系统机构得到了很大的简化。 主节点作为系统元数据的存储及仲裁者,使得这种设计形成了一个简化模型用来管理每个名称空间的数据分布,使得用户数据不会流经名字节点。 客户端 Namenode Metadata ops Read datanodes 客户端 写 blocks 应用 Block ops datanodes 存储服务器 存储服务器 南华大学计算机科学与技术毕业设计(论文) 第 19 页 共 54 页 ( 1)主节点 和 从节点 之间的关系 主节点和从节点是一些软件组件,主要目的是用一种解耦和方式跨越多个异构操作系统在普通的计算机上运行。 HDFS 是由 Java 编程语言编写的,因此,HDFS 能在任何支持 Java 编程语言的机器上运行。 在一个集群里拥有一 台专用机器,用来运行一个主节点,可能还有一个从节点,其他集群中的机器都运行一个从节点。 HDFS 典型部署是在专门的机器上运行主节点,集群中的其他机 从节点;也可以在运行主节点的机器上同时运行从节点,也可以一台机器上运行多个从节点。 一个集群只能一个主节点。 主节点使用事物日志( editLog)用来记录 HDFS 元数据的变化,同时也使用使用映射文件( FsImage)存储文件系统的命名空间,其中包含文件的属性信息等。 映射文件和事物日志都存储在主节点的本地文件系统中。 主节点启动时,从一存储的了映射文件和事物日志的盘里 读取映射文件和事物日志,使事物日志的事物都可以应用到内存中的映射文件上,然后将新的元数据移动到本地磁盘新的映射文件中,这样就可以截去旧的事物日志,这个过程通常被称为检查。云计算文件系统的实现毕业设计(论文)(编辑修改稿)
相关推荐
员在规定的时间内进行整改,并按时复查。 3)负责对进场的各施工班组人员进行入场安全知识、安全意识、安全操作技能培训教育,并做好培训教育记录。 4)做好安全技术交底工作,并检查执行情况。 5)对特殊工作,检查持证上岗情况。 6)负责每天做好工地的安全巡查,并填写安全巡查记录, 对发现的安全隐患及时进行责令整改,并记录;对重大的安全隐患及时上报。 7)搞好重大危险因素和重要环境因素的登记建档
( ) 式中 Q——居民生活年用气量 , Nm179。 /h; N——居民人数 , 人 ; k——气化率 , %; q——居民生活用气定额 , kJ/人 .a; Hl——燃气低热值 , kJ/Nm179。 ; 本工程设计气化居民用户 20xx 人,燃气低热值 Hl=,耗热定额为 q=2303MJ/人 年,气化率 K=106。 年用气量662 0 0 0 2 3 0 3 1 0 0 . 9 3
过陕西省公布并施行); 6)、《陕西省环境保护局关于印发陕西省渭河流域水污染防治工作意见的函》)(陕环函〔 20xx〕 401号); 7)、设计委托书及合同 ; 8)、其它有关基础资料; 2. 执行标准及遵循的设计规范 1)、《 生活垃圾转运站工程项目建设标准 》(建标 11720xx); 2)、《城市环境卫生设施规划规范》( GB5037720xx) ; 3)、《城镇环境卫生设施设置标准》(
11 第九章 环境影响分析 ………………………………… ……… 12 第十章 消 防 工 13 程………………………………………………… 15 第 十 一 章 投 资 估 算 与 资 金 筹措………………………………… 16 第十二章 效 益 分析……………………………………………… 16 14 第一章 项目概述 项目基本概况 项目名称:白城市绿野生态农庄有限公司 生态 休闲农业示范基地建设项目
湖南、黑龙江等省为辅的 12 个省区市场,产销率达到 100%。 公司组建了自己的科研队伍,建立了云牛自身的省级企业技术中心,自主研发各类市场竞争力强、市场占有率高、消费者容易接受的新秀乳品。 云牛技术中心设备先进、齐全,人员配置充足完备,已具备新技术、新产品研究开发条件。 到目前为止,公司配置各类研发人员 48 人,其中,高级职称 8人 ,中级职称 12人,在西南三省的同行中处于领先。
据本次项目的目的和要求,结合云浮市 社会经济与道路旅客运输发展的特点,拟采用回归分析模型、三次指数平滑法、弹性系数法等模型进行预测。 选用多种模型进行预测时,各模型预测结果不尽相同,为了使预测结果更接近真值,可运用组合预测方法对结果进行修正。 一 元线性回归分析 一元线性相关回归分析预测法,是根据自变量 X和因变量 Y的相关关系,建立 x与 y的线性关系式