基于多GPU的Cache模拟加速技术研究

[复制链接]
查看: 252|回复: 0

2万

主题

3万

帖子

7万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
72280
发表于 2022-8-13 23:45:05 | 显示全部楼层 |阅读模式
目:


雅宝题库答案
****此区域为收费内容****    需支付 1 知识币后可查看,1币=0.01元查看答案


雅宝题库解析:
目前,所有微处理器供应商已经转变了处理器的处理模型,即在每个芯片中采用多个处理器内核提升处理能力,多核处理器的发展再次凸现了Cache设计对计算机系统性能的重要影响。Cache内部结构、Cache的层次结构、及Cache一致性协议等,都成为了Cache设计中必须要综合考虑的因素。如何高效的支持Cache设计就成为体系结构领域的重要题目之一。Cache模拟器是Cache体系结构及关键应用的研究、设计和评估的基本工具,通过对备选体系结构模拟获取的统计信息,比较以确定当前应用下性能较优的体系结构。随着被模拟系统复杂性、存储访问序列长度以及模拟参数的增加,使得Cache模拟器完成一次存储访问模拟的性能比真实Cache性能要慢2个数量级以上。当面对多核结构下的Cache系统时,由于层次结构、一致性协议等因素的引入,性能降级更为明显,使得传统的串行执行的Cache模拟技术难以有效支撑今后计算机体系结构和关键应用的研究与开发工作。因此,提高Cache模拟方法的性能是计算机体系结构研究中的一项重要工作,是缩短多核处理器、Cache系统以及存储体系结构研发周期的关键支撑工作之一。近年来,针对传统Cache模拟器的串行执行机制是导致Cache模拟性能低下的这一根本原因,越来越多的体系结构研究人员通过发掘模拟过程中的可并行因素并行化模拟过程,以获取性能加速。与此同时,随着图形处理器(Graphics Process Unit, GPU)技术的飞速发展,特别是其面向通用计算编程模型的不断完善,大量在CPU上串行执行的经典算法被成功的移植到GPU上,并取得了较理想的并行加速效果。本文以加速Cache模拟过程为目标,通过剖析Cache模拟过程中的并行性及GPU并行模型特性,研究面向单核及多核Cache并行模拟加速技术,实现了基于GPU-CUDA平台的单核、多核Cache并行模拟器,取得的主要研究成果及创新点如下:1)分析CUDA平台中的计算模型及存储模型特性,并结合Cache模拟并行性,提出了基于组间并行的Cache模拟框架向GPU体系结构映射的机制;针对GPU平台特性,改进GPU并行分组方式提升模拟预处理性能,结合数据存储访问及共享存储占用优化方法,进一步提升模拟并行性能;面向Cache设计空间搜索题目,充分利用GPU轻量级线程及零切换开销的特性,将多趟面向不同Cache设计选项的评估并行于单趟模拟过程,加速设计空间的搜索。2)进一步发掘单核模拟特点,研究单核Cache各层解耦的模拟加速方法,并从初始化及指令/数据并行的角度进一步扩大并行力度,实现基于GPU的组间并行单核Cache模拟器,实验表明模拟器功能正确且平均加速比为4.72,基于4-GPU实现的多配置组间并行单核Cache模拟器平均加速比达到11.87。在此基础之上,研究了基于访存序列分段的时间并行模拟方法,并进行功能验证,实验结果表明,基于时空并行的单层Cache模拟平均加速比达到8.63。并对时间并行算法的Cache块错序及状态信息丢失的不足提出了修正算法,以适用于解耦的单核多层Cache模拟。3)针对多核Cache一致性协议模拟的过程,提出了面向GPU平台的一致性协议实现框架。分析存储一致性协议模拟过程中的Cache相关事务,提出集中式数据结构管理各核相应Cache组的Cache块状态,通过对一致性状态表的维护实现相应协议。针对多配置的单趟模拟,给出基于CUDA平台的多配置划分方案以及相应的存储、线程工作方式。基于模拟框架,利用4-GPU平台实现L2层Cache私有、共享可配置,多种一致性协议的单趟模拟,其性能相比于CPU上的多核Cache模拟运行加速比达到8.2。4)理解二进制码插桩工具Pin的工作机制,实现了一种基于Pin获取应用程序存储访问序列的Pintool,将其作为模拟器前端,高效将标准测试集产生的存储访问序列施加于存储模拟器,且获取时不影响程序原本的行为,进而得到完整的目标系统在各种标准测试程序下的存储行为评估。同时,构建存储访问发生器与模拟器端的高效通信机制,使得所构建的存储模拟器能够有效刻画SPEC CPU 2006以及SPEC OMP 2001测试集在所模拟的存储系统架构上的存储访问行为,且与Intel开发的CMP$im的刻画结果一致。此外,在运行相同标准测试程序时,本文实现的基于单GPU的模拟器运行MIPS高于CMP$im,且单趟可完成6种配置的模拟,而CMP$im单趟模拟过程仅能完成对单一配置的模拟。





上一篇:圆柱直齿轮的电火花线切割加工技术及工艺研究
下一篇:某市决策信息服务平台的设计与实施
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图