• 华为发布AI训练集群Atlas 900:全球第一 相当于50

  • 当前位置:小宋虻岩网|  科技| 华为发布AI训练集群Atlas 900:全球第一 相当于50

华为发布AI训练集群Atlas 900:全球第一 相当于50

今日,在上海举行的第四届华为全联接大会上,华为轮值董事长胡厚崑正式发布了华为智能计算战略以及全球最快的ai训练集群atlas 900。atlas 900总算力达到256p~1024p flops @f

浏览次数:1255发布时间:2019-10-20 13:24:26

今天(18日),华为轮值主席胡侯坤在上海举行的第四届华为全面连接大会上正式宣布了华为的智能计算战略和全球最快的人工智能培训集群atlas 900。

根据胡侯坤的介绍,阿特拉斯900目前是世界上最快的人工智能训练集群,由数千个上升的处理器组成。在测量人工智能计算能力的黄金标准resnet-50模型训练中,atlas 900在59.8秒内完成了训练,比最初的世界纪录快10秒。Atla900设法达到256p~1024p flops @fp16,相当于50万台计算机的计算能力。

胡侯坤说,阿特拉斯900强大的计算能力可以广泛用于科学研究和商业创新。例如,天文勘探、石油勘探等领域需要大量的数据计算和处理。

胡侯坤还分享了一个由华为、上海天文台和斯卡公司联合创建的天文探测案例。天文学研究高度依赖于海量数据的分析和计算,离不开超强的计算力支持。这张南半球的星图上有20万颗恒星,所以许多恒星是肉眼看不见的。这些照片来自斯卡射电望远镜数据。

胡侯坤说,“在当前条件下,天文学家很难从这20万颗恒星中找到具有某些特征的恒星。天文学家需要169天的工作来完成这项工作。现在有了atlas 900,在10秒钟内从20万颗恒星中检索到了具有相应特征的恒星。”

阿特拉斯900 ai训练集群技术特点:

在人工智能计算能力方面,atlas 900人工智能训练集群采用了业界计算能力最强的910人工智能上升处理器在单芯片上。每款910 ai处理器内置32个达芬奇ai内核,单个芯片提供的计算能力是业界的两倍(256tflops @ fp16)。阿特拉斯900人工智能训练集群将成千上万个正在崛起的910人工智能处理器相互连接起来,以构建业界第一个计算集群。

瑞星910 ai处理器采用soc设计,集成了“ai计算能力、通用计算能力、高速大带宽i/o”,大大减轻了主机cpu的数据预处理任务,充分提高了训练效率。

在集群网络方面,阿特拉斯900 ai训练集群采用三种类型的高速互联:hccs、pcie 4.0和100g以太网。100 tb完全互连的无阻塞专用参数同步网络将网络延迟和梯度同步延迟降低了10-70%。

在ai服务器内部,正在崛起的910 ai处理器通过hccs高速总线相互连接。上升的910 ai处理器和cpu与最新的pcie 4.0 (16gb/s)技术互连,速度是业界主流采用的pcie 3.0(8.0gb/s)技术的两倍,使数据传输更快、更高效。在群集级别,采用面向数据中心的cloudengine 8800系列交换机来提供单端口100gbps交换速率,并将群集中的所有ai服务器连接到高速交换网络。

原无ilossless智能无损交换算法对集群中的网络流量进行实时学习和训练,实现网络零丢包和e2e μs级延迟。

在系统级调优方面,atlas 900 ai训练集群通过华为的集体通信库和作业调度平台集成了hccs、pcie 4.0和100g roce三个高速接口,充分释放了正在崛起的910 ai处理器的强大性能。

华为的集体通信库提供培训网络所需的分布式并行库。通信库+网络拓扑+训练算法进行系统级优化,实现集群线性度> 80%,大大提高作业调度效率。

在冷却系统方面,阿特拉斯900 ai培训集群采用全液冷方案,创新设计柜级封闭保温技术,支持> 95%的液冷比。单个机柜支持高达50kw的超高散热功耗,以实现pue

此外,在节省空间方面,与8kw风冷式机柜相比,节省了79%的房间空间。极端液冷技术满足高功率、高密度设备部署和低pue的要求,大大降低了客户的总体拥有成本。