论文目录 | |
摘要 | 第1-6页 |
ABSTRACT | 第6-12页 |
第1章 绪论 | 第12-26页 |
1.1 GPU背景介绍 | 第13-20页 |
1.1.1 GPU的软件 | 第13-15页 |
1.1.2 GPU的硬件 | 第15-18页 |
1.1.3 片外存储器 | 第18-20页 |
1.2 本文主要工作 | 第20-22页 |
1.2.1 L1 data cache效率 | 第21页 |
1.2.2 多样分支 | 第21-22页 |
1.2.3 高带宽存储器 | 第22页 |
1.3 本文主要创新工作 | 第22-24页 |
1.3.1 一种支持细粒度和粗粒度cache-line管理的L1 data cache结构 | 第22-23页 |
1.3.2 线程-通道混洗压缩 | 第23-24页 |
1.3.3 研究高带宽存储器HBM的新特征在GPU中的应用 | 第24页 |
1.4 本文组织结构 | 第24-26页 |
第2章 国内外研究现状 | 第26-36页 |
2.1 GPU的性能 | 第26-33页 |
2.1.1 Warp调度策略 | 第26-28页 |
2.1.2 L1 data cache | 第28-31页 |
2.1.3 GPU硬件资源利用率 | 第31-33页 |
2.2 GPU的功耗 | 第33-36页 |
第3章 一种支持细粒度和粗粒度Cache-Line管理的L1 Data Cache架构 | 第36-70页 |
3.1 相关背景介绍 | 第36-41页 |
3.1.1 共享存储器和L1 Data Cache | 第38-39页 |
3.1.2 Amoeba-Cache | 第39-41页 |
3.2 GPU片上存储器的使用情况 | 第41-45页 |
3.2.1 L1 Data Cache的使用情况分析 | 第41-43页 |
3.2.2 共享存储器的使用情况 | 第43-45页 |
3.3 Elastic-Cache结构 | 第45-53页 |
3.3.1 Chunk-tag和Common-tag | 第45-46页 |
3.3.2 Elastic-Cache的基本操作 | 第46-47页 |
3.3.3 对共享存储器的修改 | 第47-48页 |
3.3.4 Elastic-Cache的实现方法 | 第48-52页 |
3.3.5 替换策略和cache一致性 | 第52-53页 |
3.4 实验方法 | 第53页 |
3.5 实验结果 | 第53-68页 |
3.5.1 性能 | 第53-61页 |
3.5.2 L1 Data Cache缺失率 | 第61-63页 |
3.5.3 L1 Data Cache的效率 | 第63-65页 |
3.5.4 停顿次数 | 第65-66页 |
3.5.5 代价 | 第66-68页 |
3.5.6 标签和数据的并行访问 | 第68页 |
3.6 相关工作 | 第68-69页 |
3.7 本章小结 | 第69-70页 |
第4章 线程-通道混洗压缩 | 第70-98页 |
4.1 相关背景介绍 | 第70-72页 |
4.2 相关工作 | 第72-77页 |
4.2.1 多样分支和PDOM | 第72-74页 |
4.2.2 压缩机制 | 第74-77页 |
4.3 寄存器文件的设计 | 第77-79页 |
4.3.1 PDOM中的寄存器文件 | 第77页 |
4.3.2 TBC中的寄存器文件 | 第77-79页 |
4.4 线程-通道混排压缩 | 第79-88页 |
4.4.1 TBC局限性分析 | 第79-81页 |
4.4.2 寄存器文件的改进 | 第81-84页 |
4.4.3 提前调度机制 | 第84-86页 |
4.4.4 硬件支持 | 第86-88页 |
4.5 实验方法 | 第88页 |
4.6 实验结果 | 第88-95页 |
4.6.1 SIMD通道利用率和压缩效率 | 第89-91页 |
4.6.2 空闲周期数 | 第91-92页 |
4.6.3 性能 | 第92页 |
4.6.4 对存储系统的影响 | 第92-94页 |
4.6.5 寄存器文件的bank访问代价 | 第94页 |
4.6.6 TLSC的实现代价 | 第94-95页 |
4.7 TLSC的架构兼容性分析 | 第95-96页 |
4.8 本章小结 | 第96-98页 |
第5章 HBM的新特征在GPU中的应用 | 第98-112页 |
5.1 相关背景介绍 | 第98-100页 |
5.2 GDDR5和HBM的比较 | 第100-102页 |
5.3 结合GPU Cache架构探索HBM | 第102-103页 |
5.4 实验方法 | 第103-105页 |
5.4.1 GPU性能 | 第103-105页 |
5.4.2 HBM的功耗 | 第105页 |
5.5 实验结果 | 第105-110页 |
5.5.1 GPU的性能 | 第105-108页 |
5.5.2 HBM的功耗 | 第108-110页 |
5.6 相关工作 | 第110页 |
5.7 本章小结 | 第110-112页 |
第6章 总结与展望 | 第112-116页 |
6.1 本文工作总结 | 第112-113页 |
6.2 工作展望 | 第113-116页 |
6.2.1 对Elastic-cache进行扩展 | 第113页 |
6.2.2 TLSC在不同寄存器文件结构上的移植 | 第113-114页 |
6.2.3 访存请求调度策略对HBM的影响 | 第114-116页 |
参考文献 | 第116-128页 |
发表论文和参加科研情况说明 | 第128-130页 |
致谢 | 第130-132页 |