来源 :龙芯中科2024-07-30
近日,由CCF体系结构专业委员会、集成电路设计专业委员会、容错计算专业委员会、计算机工程与工艺专业委员会联合举办的第二届中国计算机学会芯片大会在上海成功举办。大会以“发展芯技术,智算芯未来”为主题,共设立47场学术论坛,为CCF会员、计算机及芯片领域专业人士提供思想交锋、技术论道、交流会友的舞台。
龙芯中科深度参与本次大会,不仅进行黄金赞助支持,为大赛颁奖活动提供2K1000星云开发板、龙芯久久派开发板等奖品,更安排专家作论坛学术报告,设置展台展示最新技术和产品等。
在通用CPU性能提升论坛上,龙芯实验室主任张福新以《高性能CPU微结构研究》为主题发表演讲。张福新表示,龙芯致力于下一代处理器技术的探索,坚持开展前瞻研究,近年来,龙芯CPU核心性能提升超20倍,其中主频提升仅2.5倍,微结构优化成为主要贡献源。龙芯等企业的产品性能提升表明,高性能CPU微结构仍有很大研究空间。同时,张福新分享了龙芯团队近期的一些研究成果,包括在分支预测方面的HRAS、AVM-BTB和数据预取方面的Tyche等。
HRAS
龙芯深入分析了CTRAS和SCRAS等返回地址预测机制的失效原因,提出了由猜测队列、提交栈和后备预测器三级预测组成的HRAS混合预测机制。仿真结果显示,相同面积下,HRAS的MPKI显著低于CTRAS和简单RAS。
AVM-BTB
龙芯观察发现,动态调整BTB大小的设计相对静态可能更有益;一个BTB和ICache的动态容量平衡方案有提升前端效率的潜力;BTB的预测率度量反映程序的需求,能够被用来指导BTB容量的动态调整。AVM-BTB利用上述观察设计了可动态借用ICache缓存容量的切换策略,能够大幅提升处理器性能并降低功耗。
Tyche
龙芯对程序行为和现有预取器进行分析,发现仅通过访存流而不依赖指令依赖关系无法高效检测间接访存模式;不知道生产者和消费者之间全部操作则无法构建完整的非线性关系;实现一个轻量级的机制,在硬件上记录依赖链是可行的。Tyche预取器利用这些发现通过少量硬件即可实现对间接访存的高效预取,进而具有比现有算法更好的性能。
龙芯实验室主任张福新
芯片是信息产业的基础、数字世界的底座,是国际竞争的最前沿。党的二十届三中全会明确提出,要“优化重大科技创新组织机制,加强国家战略科技力量建设,统筹强化关键核心技术攻关”。作为中国CPU研发核心力量,龙芯以“十年磨一剑”的坚定决心和顽强意志,持续推进产品更新迭代,未来,龙芯也将继续与合作伙伴共建安全可靠的第三套信息技术体系和产业生态,以实际行动支撑国家信息安全和产业发展。