全球最实用的IT互联网信息网站!

AI人工智能P2P分享&下载搜索网页发布信息网站地图

当前位置:诺佳网 > 电子/半导体 > 处理器/DSP >

基于1.35M Instance设计的GPU加速实例

时间:2025-04-15 16:54

人气:

作者:admin

标签: GPU  计算机  EDA  控制器 

导读:CPU是计算机的核心部件,由运算器、控制器、寄存器组和内部总线等部分组成。常见的x86架构CPU核心数相对较少,一般在8 - 32核左右,主要是为了解决复杂的逻辑运算和顺序执行指令的...

CPU是计算机的核心部件,由运算器、控制器寄存器组和内部总线等部分组成。常见的x86架构CPU核心数相对较少,一般在8 - 32核左右,主要是为了解决复杂的逻辑运算和顺序执行指令的任务。它在处理单线程任务时效率很高,能够快速执行复杂的指令集,例如进行数学计算、程序的流程控制等操作。

GPU最初是为了图形渲染而设计的,其架构与CPU有很大不同,采用了大规模并行架构。以英伟达的CUDA架构为例,它拥有成千上万个CUDA核心,这些核心可以同时处理多个任务。例如,在深度学习中,GPU可以加速神经网络的训练过程,因为神经网络的训练涉及大量的矩阵运算,这些运算可以并行处理,GPU的并行架构能够大大缩短训练时间。近两年,GPU也成为EDA(电子设计自动化)加速的技术热点。

在数字SoC芯片的设计和实现中,为了达到功能、性能、功耗和面积目标,芯片设计者通常需要进行多轮次的迭代和优化。数字后端实现环节由于涉及的数据规模庞大且迭代次数多,基于CPU的计算耗时相当长。一般来说,一个后端设计大概需要半年左右的时间,以一个10M Instance规模的模块设计为例,基于常见的x86_64架构、16核×128CPU、2.8G主频的服务器运行数字后端各项任务,每轮时长大约为:布局(Place)75小时、时钟树综合(CTS)45小时、时钟优化(CTSopt)45小时、布线(Route)35小时、布线优化(RouteOpt)60小时。如果能够有效利用GPU的并行计算能力,将对芯片设计的加速非常有帮助。

芯行纪自主研发的新一代数字实现解决方案,通过适配GPU的环境,使用GPU为自研布局布线软件AmazeSys进行了加速,并且获得了可观的加速效果。以下是一个基于1.35M Instance设计的GPU加速实例,运行方案如下:

仅使用CPU,启用31个CPU线程

使用CPU和GPU,启用31个CPU线程和1个GPU (3584 CUDA cores)

a5369560-190a-11f0-9310-92fbcf53809c.png

图1:机器配置

从图2可以看到,通过启用1个GPU,placement各个主要阶段得到了5到20倍不等的加速比。

a5461c74-190a-11f0-9310-92fbcf53809c.png

图2:Placement过程中的加速比

从图3可以看到,使用两种方案的wire length基本持平, GPU加速时虽然overflow略有增加,但总体获得了9.1倍加速的效果。并且,当GPU数量增加、性能增强,加速比也将会继续增大。

a54ff0f0-190a-11f0-9310-92fbcf53809c.png

图3:使用GPU加速的结果

数字布局布线涉及的串行计算相对较多,但每一个环节只要能够有并行的可能的情况下,提前考虑算法以及GPU环境的匹配,是能够实现加速可能性的。GPU加速对数字电路的后端设计而言,属于EDA工具研发中的新挑战。芯行纪AmazeSys数字布局布线软件适配GPU硬件加速技术,为设计者缩短设计周期、加速设计创新提供了新的途径。

关于芯行纪

芯行纪科技有限公司汇聚EDA研发和技术支持精英,主营研发符合3S理念(Smart、Speedy、Simple)、包含新一代布局布线技术的数字实现EDA平台,并提供高端数字芯片设计解决方案,助力提升芯片设计效率,以科技创新推动发展新质生产力。

温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信