华为发布全新架构昇腾AI计算集群,支持万亿参数大模型训练。
9月20日,在华为全联接大会2023期间,华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛正式发布了Atlas 900 SuperCluster,这是一款全新架构的昇腾AI计算集群。这个集群具备支持超万亿参数的大模型训练的能力。
据汪涛介绍,Atlas 900 SuperCluster采用了全新的华为星河AI智算交换机CloudEngine XH16800。这款交换机拥有高密度的800GE端口能力,使得只需两层交换网络即可实现2250节点(相当于18000张卡)的超大规模无收敛集群组网。此外,Atlas 900 SuperCluster还采用了创新的超节点架构,大幅提升了大模型训练的能力。同时,华为充分发挥在计算、网络、存储和能源领域的综合优势,从器件级、节点级、集群级和业务级全面提升系统的可靠性,将大模型训练的稳定性从天级提升到月级。
除了硬件方面的改进,软件也是释放大算力的关键。为了加速大模型的创新,华为发布了更开放、更易用的CANN7.0。这个软件不仅兼容业界常用的AI框架、加速库和主流大模型,还深度开放底层能力,使得AI框架和加速库可以更直接地调用和管理计算资源,从而让开发者能够自定义高性能算子,让大模型具备差异化的竞争力。
此外,华为还升级了Ascend C编程语言,以更高效的方式简化算子实现逻辑,大幅缩短融合算子的开发周期,为AI模型与应用的快速开发提供支持。
汪涛表示,随着人工智能进入大模型时代,大算力正在成为人工智能发展的核心引擎。华为通过改变传统的服务器堆叠模式,以系统架构创新打造AI集群,实现算力、运力和存力的一体化设计,从而突破大算力的瓶颈。
发表评论