多核研究平台-cmc总线的设计与实现学士学位论文(编辑修改稿)内容摘要:

5 在单核处理器系统中,单一线程中已经不太可能提高更多的并行性。 简单点说就是传统单核处理器的是一个通道,双核处理器是两个通道,处理速度比传统快。 而且,生产成本也相对较低。 目前,双核处理器的价格已经很便宜了,用户理想的选择当然是双核,而非单核处理器。 3) 系统所能耗问题现象突出 目前,相对于传统的单核处理器来说,如果仅仅提升处理主频,其发热量非常大,将消耗非常大的功率,那么其散热量也就不行了,没有足够大,足够强的冷去风扇,使处理器正常稳定地工作。 4) 对大型功能需求处理能力低 随着当前对大型数据库、政府、企业、军事、通信要求高性能处理能力芯片,单核处理器已经表现得不能为力,而且已经显现了巨大的缺陷,达不到理想的使用效果。 多核处理器的提出 上一节已经讲到:随着单核 CPU 在处理系统能力上,体现出来的性能瓶颈,并暴露出许许多多的局限,下面,我们自然而然的引入多核处理器概念,多核处 理器能带来许多,让用户很满意的性能优势,在很多关键处理需求上让用户喜悦,比如说:系统安全性和虚拟技术等方面起到至关重要作用。 随着虚拟技术的逐步发展,该技术已经能够提供对资源使用率有较好的保护,并且在一些重要的商用市场提供更好的保护,有较高的市场价值。 而我们普通消费者在多核处理器的批量生产后,便也会得到比以前传统的单核处理器,得到更高的性能,更快的运算,更安全的性能,逐步提高人们生活质量,提高人们工作效率。 多核处理器的概念 所谓多核心处理器,简单的说就是在一块 CPU 基板上集成两个或两个以上处理器核心,并且通过并行总线将个处理器核心连接起来。 例如:上面章节提到 intel 公司 07年推出的非常流行的酷睿 2 型双核处理器。 酷睿 2 型双核处理器其实是单芯片多核处理器( CMP)中最容易、最简单实现的一种多核处理器。 实际上,在嵌入处理器研究中,双核心处理器是性价比非常高的一种芯片处理器。 我们先谈一下多核处理器可能存在一些问题。 多核处理器存在的主要问题:因为单 沈阳理工大学学士学位论文 6 片多核处理器系统的资源都是采用划分方式的,如果当没有足够多的线程时。 就造成了处理器系统资源的浪费。 多核处理器的有点主要是:处理器 可以很简单的认为容易获得非常高的主频,而且与此同时缩短的设计、验证、制作加工的时间。 而多核处理器相对于传统的单核处理器具有更高的并行度,在多核处理器上可以达到多线程、多进程并行,意思就是说在同一时刻处理器上有多个线程和多个进程在并行执行。 多核处理器芯片的出现和发展,是并行技术发展和市场应用需求的必然产物。 多核处理器能获得用户较满意的主频,采用多核处理器架构能获得较高的性能,在每个时钟周期内,多核处理器可执行更多内核有效单元,内核之间互相达到高效的通信机制,才使系统达到最大性能,达到较高的主频。 这主要如下 四个方面的原因: 第一:根据摩尔定律,传统的单核处理器不可能达到理想的主频,而且随着集成电路、晶体管高速发展,在制造水准进入 90nm 工艺时代,多核处理器芯片将能更高效发挥其重要的性能。 第二,多核核间通信技术逐步发展,多核处理器核间的通信标准统一规范后,各个内核之间相互协作和通信实现高效的通信机制,而与传统的单核处理器结构相比,多核处理器在克服线程延迟影响方面更具有优势。 第三,在能耗方面,多核处理器相对于传统的的单核处理器其功耗小得多。 当达到同一主频时,传统的单核处理器要达到这一主频时,其发热量一定非常大 ,将消耗非常大的功率,并散发出巨大的热量,如果没有足够大、足够强的冷却风扇,处理器就无法正常稳定保持工作。 而多核处理器芯片在这方面就进行了优化,在功耗方面性能表现卓越。 第四,多核处理器研制设计时间短、技术相对成熟、必要劳动成本低。 最有效的例证就是单核处理器与双核处理器,在提升主频上研制设计成本,体现出的性价比。 目前,双核处理器已经牢牢占据市场绝大多位置,将有逐步完全取代传统单核处理器的趋势。 处理器的同构和异构 多核处理器存在两种结构形态:同构和异构,下面本文简要地说明分析一下同构与异构是多核处 理器芯片的两种比较流行的结构形态,在多核处理器的发展思路上有十分重要的意义。 请看下表 :我们将同构与异构多核处理器作一下见简要性能比较,从表中,我 沈阳理工大学学士学位论文 7 们很容易看出同构和异构多核处理器的 4 个方面:即: 主要应用; 主要结构; 数据存储; 核间互连。 主要不同就是异构多核处理器是专用处理器。 针对用户不同需求,我们将有针对性的采用不同处理器设计方法,比一个以不变应万变的方法更有价值。 当时,采用异构处理架构一般意味着采用两个或者更多个芯片,这样我们可以很容易的看出先用不同的结构的处理器体现的性能是不一样的。 表 同构与异构多核处理器比较 同构的多核处理器 异构的多核处理器 主要应用 通用处理器 多用 /专用处理器 主要结构 同构核心,多核 主从式异构核心,众核 数据存储 寄存器文件、 Cache、内存 寄存器文件、 Cache、内存 核间互联 多总线、交叉开关、格橱等 多总线、交叉开关、格橱等 多核处理器的优点 和单核处理器相比,多核处理器有着 5 个显著的优点: 逻辑简单:相对超标量微处理器结构和超长指令字结构而言,单芯片多处理器结构的控制逻辑复杂性要明显低很多。 相应的单芯片多处理器的硬件实现必然要简单得多。 高主频:芯片多处理器结构的控制逻辑相对简单,包含极少的全局信号,因此线延迟对其影响比较小,因此,在同等工艺条件下,单芯片多处理器的硬件实现要获得比超标量微处理器和超长指令字微处理器更高的工作频率。 低通信延迟:由于多个处理器集成在一块芯片上,且采用共享 Cache 或者内存的方式,多线程的通信延迟会明显降低,这样也对存储系统提出了更高的要求。 低功耗 :调节电压 /频率、负载优化分布等,可有效降低 CMP 功耗。 设计和验证周期短:微处理器厂商一般采用现有的成熟单核处理器作为处理器核心,从而可缩短设计和验证周期,节省研发成本。 多核多线程处理器的关键技术 多核处理器有许多重大的关键技术,至今都是处理器研究的热点问题,主要是集中 沈阳理工大学学士学位论文 8 在体系架构、软件、逻辑控制、设计周期、功耗和安全性设计等等方面,多核多线程处理器具有当前研究热门方面的技术。 下面例举出多核多线程处理器芯片面临着的九大关键技术:  核结构研究:同构还是异构  程序执行模型  Cache 设计:多级 Cache 设计与一致性问题  总线设计  操作系统设计:任务调度、中断处理、同步互斥  低功耗设计  存储器墙  可靠性及安全性设计  核间通信技术 核间通信技术 多核处理器是指一个芯片内含有两个或者两个以上的 “执行内核 ”。 多核处理器核间通信结构研究目的是使各核之间能够相互协作、通信,提高处理器速度、性能。 目前多核处理器的体系结构除了继续沿用单核中的总线共享结构,如 AMBA、 CoreConnect、Wishbone、 OCP、 C* BUS 等总线结构外,还有交叉开关 ( Crossbar switch) 、片上网络 ( Network onChip) 等结构。 图 给出了共享总线结构的多核处理器模型。 处理器内部每个核都有私有一级缓存 ( L1 Cache)和共享的二级缓存 ( L2 Cache)。 核的 L1 Cache 之间、核的 L1 Cache 与 L2 Cache、主存与片内以及 I/O 设备与片内的通信都是通过共享总线实现。 这种结构只能同时允许一个核的 L1 Cache 与 L2 Cache 进行交互。 沈阳理工大学学士学位论文 9 图 共享内存多核处理器模型 如图 所示,交叉开关结构引入了交换矩阵这种新的交换方式,摒弃了共享带宽的交换方式。 Crossbar Switch 被不同核的 L1 Cache 交替使用从而达到访问共享 L2 Cache 的目的。 n 条横向和 m 条纵向的总线构成的网状结构使得每一个核能够和任意一块 L2 Cache 进行连接,每一条交叉线中的交叉位置等效于一个开关[ 4]。 如果有不同的核需要同时访问同一块 L2 Cache 会产生竞争现象,这时需要有相应的仲裁机制来保证数据的完整性与一致性,其中硬件保证了操作的唯一性,软件保证了数据的完整性。 图 交叉开关结构 沈阳理工大学学士学位论文 10 片上网络 ( NoC, Network onChip) 核心思想是将计算机网络技术思想移植到芯片设计中。 NoC 设计定义了 5 个协议层 : 物理层、数据链路层、网络层、传输层和系统层。 数据采用报文形式交换,将消息划分成固定长度的报文,每个报文的前几个字节包含路由和控制信息。 在报文转发中,依照路由算法决定报文在网络结构中传输的路径、方向、距离。 交换算法决定两个相邻路由节点之间某种方式动态地分配传输线路和接口的资源。 共享总线与交叉开关两种结构都易于设计实现,软件开销较小。 交叉开关是 多通道的数据传输,相比于单通道的共享总线互联结构具有更大的访问带宽。 但是实现交叉开关需占用更多的片上面积。 当核的数目增加时,多核处理器核间通信源硬件资源消耗的数量级将按平方阶 O( n2) 增加 ( n 为多核处理器中核的个数 )。 这两种结构在进行数据交换时可能会产生竞争现象,可采用总线侦听协议的方式来保证数据的一致性与完整性。 这样核本身需要侦听逻辑,处理器的逻辑资源就增大。 随着多核系统中核的数目不断增加,等待时间变长,多核处理器的软件开销加大。 共享总线与交叉开关结构只适合于核数较多的多核处理器,对于未来众核 处理器会形成性能瓶颈。 NoC 结构使得未来多核处理器的各个核可以通过更灵活的方式交换数据,从而避免了集中的互连设计带来的系统性能瓶颈。 这种方式避免了共享总线单一通道的瓶颈和交叉开关固定通道的瓶颈,提高了通道的利用效率,但其代价是大幅增加了软件开销,包括报文的分组编码和重组解码,这些都要增加软件时间并占用 L1 Cache 空间来完成。 因此片上网络适合大核模式的处理器,其每个大核具有较强的功能,较大的 L1 Cache 空间。 NoC 因为占用过多的 L1 Cache 空间和软件时间,所以不适合于众核处理器的 底层通信。 NoC 结构只适用于大核模式的多核处理器。 文中对上述三种通信架构进行了性能的折衷,提出了一种新型的多核处理器内部核间通信总线 —CMC 总线。 该总线特点是只用了一根握手线,简单的硬件逻辑,并为软件提供必要的控制接口,可实现多核处理器核间的高效通信。 总线设计 传统 微处理器 中, Cache 不命中或访存事件都会对 CPU 的执行效率产生负面影响,而 总线接口 单元( BIU)的工作效率会决定此影响的程度。 当多个 CPU 核心同时要求访 沈阳理工大学学士学位论文 11 问 内存 或多个 CPU 核心内私有 Cache 同时出现 Cache 不命中事件时, BIU 对这多个访问请求的仲裁机制以及对外存储访问的转换机制的效率决定了 CMP 系统的整体性能。 因此寻找高效 的多端口 总线接口 单元( BIU)结构,将 多核心 对主存的单字访问转为更为高效的猝发( burst)访问。 同时寻找对 CMP 处理器整体效率最佳的一次 Burst 访问字的数量模型以及高效多端口 BIU 访问的仲裁机制将是 CMP 处理器研究的重要内容,目前 Inter 推出了最新的英特尔智能互连技术 (QPI)技术总线,更大程度发掘了多核处理器的实力。 处理器技术发展 多核处理器的前景是非常光明的,是未来处理器发展的主流。 有可能多年之后,主流的多核多线程处理器一定能够具备同步运行越来越多复杂的指令,实践证明:从单一线程是不具备执行复杂的指令, 究其 主要根由,有如下两个方面的原因:第一个方面的原因是我们在增多多核芯片内核时,肯定提高了芯片的绝对成本,前期投入很大,其目标的价值并不一定让用户达到预期的满意度;第二个方面的原因是我们在生产制作芯片时,所需用去的必要时间变得更久,也不一定能达到用户对处理器性能日益的需求。 在当前的处理器结构设计上,我们对更加复杂化、创新化的设计理念也只仅仅能使未来理想中,多核处理器芯片的性能只能达到有限提高的,这需要我们去研究相应的更多、更高水平的核间通信技术。 当前,多核多线程处理器正在稳步发展,相关的一些核心技术,也正逐渐 成熟。 我们在研究单芯片多核多线程处理器的过程中,我们在利用集成多个 SOC 内核加工到一个芯片上,来达到提升多线程的并行性,提高各个内核间进程的通信,在硬件总线上的设计进行优化,在核通信模块的设计上,多运用先进的技术,通过大量能够高速运行在多核处理器系统上的软件开发,提升多核处理器核间通信技术。 因此我们说:当前,未来处理器发展的重要趋势:单芯片多核处理器。 面临的挑战 第一,核间通信是一个难题。 显而易见,目前,在学术界,单芯片处理器核心之间的通信技术研究将是重要的问题,核间通信技术,是当今研究的热门。 因此,一个单芯片多。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。