A Comprehensive Study of Executing ahead Mechanism for In-Order Microprocessors

Abstract

Abstract: The authors explore the design space of in-order executing ahead processors, and conduct sensitivity analysis of the executing ahead mechanism to the cache hierarchy and memory latency. It is demonstrated that reusing the pre-executed results is highly effective in improving performance and reducing energy consumption. The results also show that propagating valid data values between stores and dependent loads with a small store cache increases performance significantly. An in-order executing ahead processor with a 32-entry store cache and a 128-entry FIFO for preserving and reusing results increases performance by 24.07% over the baseline processor, with an energy overhead of 4.93%. Furthermore, it is revealed that executing ahead is necessary for hiding memory access latencies even with a very large cache hierarchy. With increasing memory latency, the performance and energy-efficiency benefits provided by executing ahead are more significant.

Key words: executing ahead, memory latency tolerance , in-order microprocessors

摘要： 面向按序执行处理器开展预执行机制的设计空间探索, 并对预执行机制的优化效果随 Cache 容量和访存延时的变化趋势进行了量化分析。实验结果表明, 对于按序执行处理器, 保存并复用预执行期间的有效结果和在预执行访存指令之间进行数据传递都能够有效地提升处理器性能, 前者还能够有效地降低能耗开销。将两者相结合使用, 在平均情况下将基础处理器的性能提升 24. 07% , 而能耗仅增加 4. 93% 。进一步发现, 在 Cache 容量较大的情况下, 预执行仍然能够带来较大幅度的性能提升。并且, 随着访存延时的增加, 预执行在提高按序执行处理器性能和能效性方面的优势都将更加显著。

关键词: 预执行, 访存延时包容, 按序执行处理器

CLC Number:

TP33

WANG Xiaoyin,TONG Dong,DANG Xianglei,LU Junlin,CHENG Xu. A Comprehensive Study of Executing ahead Mechanism for In-Order Microprocessors[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

王箫音,佟冬,党向磊,陆俊林,程旭. 面向按序执行处理器的预执行机制设计空间探索[J]. 北京大学学报（自然科学版）.

Add to citation manager EndNote|Ris|BibTeX

URL: https://xbna.pku.edu.cn/EN/

https://xbna.pku.edu.cn/EN/Y2011/V47/I1/35

[1]	CAO Xin, CAO Jian, WANG Yize, WANG Yuan, ZHANG Xing. Improvements on Transient Power Law Model under HBM Stress [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(5): 946-950.
[2]	WANG Yize, WANG Yuan, CAO Jian, ZHANG Xing. An Analysis Method of System-Level ESD Model with a TLP Stress Input [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 293-298.
[3]	HUANG Peng,WANG Yuan,DU Gang,ZHANG Ganggang,KANG Jinfeng. Fast Pre-charge Sense Amplifier for Low-Voltage Flash Memory [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(4): 600-604.
[4]	WANG Yuan,ZHANG Xuelin,CAO Jian,LU Guangyi,JIA Song,ZHANG Ganggang. Novel Ultra-Low-Leakage ESD Power Clamp Circuit in Nanoscale Process [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(4): 595-599.
[5]	CAO Jian,JIAO Hai,WANG Yuan,ZHANG Xing. Volumetric Display System Based on FPGA and DLP Technologies [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(4): 605-610.
[6]	CHEN Hongming,LI Lei,YAO Yiwu,ZHANG Wei,CHENG Yuhua,AN Huiyao. FPGA Implementation of Serial RapidIO Endpoint Controller Based on AXI Bus Interface [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(4): 697-703.
[7]	WU Fengfeng,JIA Song,WANG Yuan,ZHANG Dacheng. A Low Latency Implementation Scheme of Serial RapidIO Endpoint [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(4): 570-578.
[8]	LIU Xiaoyu,SUN Qiang. Application of PLC Automatic Control System in the Purification Part of the Conventional ⁴⁰Ar/³⁹Ar Dating System [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2012, 48(6): 879-885.
[9]	WANG Yuan,JIA Song,GAN Xuewen. Resistive RAM: A Novel Generation Memory Technology [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2011, 47(3): 565-572.
[10]	PANG Jiufeng,LI Xianfeng,XIE Jinsong,TONG Dong,CHENG Xu. Microarchitectural Design Space Exploration via Support Vector Machine [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2010, 46(1): 55-63.
[11]	XIE Jinsong,TONG Dong,LI Xianfeng,PANGJiufeng,WANG Keyi,CHENG Xu. RiTLB: iTLB Design Based on Memory Region Reusing [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2009, 45(4): 607-615.
[12]	SUN Hanxin,WANG Xiaoyin,TONG Dong,CHENG Xu. A Low-Leakage Pipelined Instruction Cache Design [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2008, 44(1): 55-61.
[13]	WANG Qingchun,CAO Xixin,LU Weijun,HE XiaoyanCAO Jian. Realization of 6, Tap Finite Impulse Response Interpolation Filter for H.264/AVC Encoder [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2007, 43(3): 417-420.
[14]	WU Ke,GAN Xuewen,ZHAO Baoying. An Improvement on Carry Chain of Conditional Carry Selection [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2006, 42(3): 371-374.

A Comprehensive Study of Executing ahead Mechanism for In-Order Microprocessors

面向按序执行处理器的预执行机制设计空间探索

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 14

Recommended Articles

Metrics