全球最实用的IT互联网信息网站!

AI人工智能P2P分享&下载搜索网页发布信息网站地图

当前位置:诺佳网 > 电子/半导体 > 处理器/DSP >

GTC 2023:阿里巴巴CUTLASS优化探索推荐系统中的应

时间:2023-03-24 17:06

人气:

作者:admin

标签: 推荐系统  G  阿里巴巴  GTC 

导读:以TensorFlow为backend ,算子数量多;此前,我们通过算子融合(类Faster Transformer),CUDA Graph等手段已经取得了不错的性能提升;利用CUTLASS进一步优化Attention和MLP计算, 可进步提升资源利用率...

推荐系统简介

背景:

●场景多,模型计算复杂度高;

●流量大,对实时性要求高;

●占用硬件资源多,硬件成本高;

●模型结构存在- -致性,可通过定制算子获得加速;

TensorFlow为backend ,算子数量多;此前,我们通过算子融合(类Faster Transformer),CUDA Graph等手段已经取得了不错的性能提升;利用CUTLASS进一步优化Attention和MLP计算, 可进步提升资源利用率。

温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信