大模型改变算力,新华三加码算力集群能力
时间:2023-06-21 19:32:32来源:钛媒体APP

算力与应用的发展,是一个不断上升、循环往复的过程,每当算力提升到一个新高度,总是会催生新的应用,新应用出现又需要更高的算力来支持。大模型就是算力发展历史上的一个关键节点。


(资料图)

“大家可以把‘算力自由’想象成第二次工业革命,电气化时代,爱迪生发明灯泡是一个标志性时刻,但最关键的是谁能够把产品做出来,普惠大众。”新华三集团副总裁、计算存储产品线总裁徐润安表示。

大模型对算力的改变才刚刚开始,大模型将来会消耗多少算力,或者说产生大模型算力的方法会有多少种,现在都是未知数。

“我相信在不远的将来,整个算力市场都会带来新一轮的革命,不论是硬件还是软件,所有的目的都是为了源源不断地提供算力给AI,当然我也相信,AI也会创造出更多新的方法,提高算力使用的效率”,徐润安补充表示。

而目前,大模型对算力的改变已经有迹可循。

算力走向全局化

传统计算以集中式架构为主,一定程度上存在复杂、低效、僵化的问题,但随着分布式架构重塑算力形态,需要在扩展性、管理性、安全性等方面实现全面升级,并将向着高效、低碳、智能的方向加速发展。

新华三集团计算存储产品线副总裁刘宏程表示,“大模型到来之后,今天谈到的算力,更多是计算、存储、网络一体化解决方案的融合。我们从客户那了解到,只卖GPU不够,建立一个全方位的解决方案,需要把服务器、存储和网络综合形成一个整体解决方案,才能帮助用户建立大模型环境,最终落实到行业应用中。”

上游芯片厂商每一次的产品更新,都意味着下游服务器厂商需要重新做一次研发,例如英伟达GPU从Ampere架构更新到Hopper架构,新华三的服务器R5500 G5也随之更新到R5500 G6。

其中,除了GPU的变化,CPU也更新到下一代, PCle从过去的Gen4到Gen5,网络从过去的100G和200G为主,升级为200G和400G为主。此外,新的网络互联、xPU、DPU等技术也变得越来越成熟,这就要求服务器厂商有相对完善的储备。

服务器本身就是系统级工程,大模型的改变是将服务器集群视作整体,需要在更大范围做系统级别优化。

刘宏程介绍,“从我们现在看到的用户实践,客户要求无损网络,RDMA也好,RoCE也好,不能丢一个数据包。丢一个数据包,有可能前面几十个小时训练的数据要重算,用户算力的利用率会降到非常低的水平,我们见过客户因为调度不灵活,算力甚至只用了5%、10%,服务器就在那空转。”

“每跨一台服务器,性能就会有一定的削减,这个削减来源于服务器之间互联和数据之间的调度,比如存储数据怎么获得,两台不同的服务器之间网络带宽和延迟是多少,这些都是整个AIGC解决方案里面需要综合考虑的部分。”他说。

此外,高能耗也是大模型算力的一个客观限制,很多客户一个机柜里只放一台GPU服务器,甚至两个机柜放一台,就是因为能耗问题。根据ODCC的数据显示,2020年我国数据中心能耗总量为939亿千瓦时,碳排放量为6464万吨。预计到2030 年,能耗总量将达到3800亿千瓦时左右,碳排放增长率将超过 300%。如何做到绿色低碳,也是大模型算力的一个瓶颈。

“一体·两中枢”,新华三补短板

以云计算为代表的厂商,在大模型算力集群方面刷足了存在感,这就要求服务器厂商补充相应的能力,近年来已有迹象,例如云服务商和服务器厂商在私有云领域直接竞争,大模型则将这一竞争推到更深层次,新华三于去年底推出的“一体·两中枢”智慧计算体系,增加了竞争筹码。

“一体”是指新华三以CPU、GPU和xPU为核心,构造出的覆盖通用计算、异构计算等全场景的多元计算体系,并在近年通过液冷等低碳技术的融合,构建起高效、低碳数据中心的算力基石;

“两中枢”分别对应智能算力中枢(傲飞)和智能管理中枢,新华三智能算力中枢(傲飞)能实现传统科学计算与AI计算深度融合,同步实现科学计算批量作业和AI容器作业的调度编排,满足教育、科学、能源、制造等高性能计算场景需求。

智能管理中枢提供部署、调优、节能、诊断、退役都能能力,为数据中心服务器提供全生命周期智能管理,能帮助企业提高运维效率,降低运维成本,客户可根据具体的业务需求对服务器进行灵活的配置部署,从而打造自己专属的运维环境。

可以理解“一体”是新华三的算力基础,而“两中枢”拓展了智算算力的集群能力,对应的是服务器集群的管理。

譬如ChatGPT参数达到了1750亿,每个参数如果只算2个字节,意味着需要8块最高端的GPU卡,才能容下所有的参数,实现灵活的应用,进一步驱动算力从通用转向GPU、NPU或者xPU等综合算力,高并发的情况需要更多差异化算力单元来满足。

“我们看到调度比较有效率的就是64卡和128卡,再往高其实已经开始有衰减,需要跨另外一个网络做调度。”刘宏程说。

据了解,新华三大部分客户所使用的GPU集群数量在64、128和256卡级别,衰减相对比较弱,现有的网络限制比较接近128卡的算力限制。举例来看,现在网络架构可能8000个端口,一般一个计算模块对一个网络端口进行调度,8000个端口对应128个GPU,超过这个数量,就跨入另外一个网络,需要两台交换机。

“当前GPU市场较为火热,但是NPU和xPU的技术在中间也起到了非常关键的作用”,刘宏程说,“一体”就是多元算力,新华三之前提出的观点得到了验证,让用户根据场景来选择不同的算力单元,满足不同的计算需求。

(本文首发钛媒体APP 作者|张帅,欢迎添加作者微信mr3right交流)

标签:

生活指南
  • 多次合伙偷东西怎么判刑?多次合伙偷东西数额认定标准是怎样的?|焦点观察

    多次合伙偷东西怎么判刑?判刑标准一般是三年以下有期徒刑、拘役或者

  • 国美美借现在叫什么_国美美借需要什么条件 即时看

    问题:请问各位,国美美借需要什么条件?现在有很多借贷平台,但是不知

  • “韵味杭州”2023年亚洲藤球锦标赛开赛

    20日,“韵味杭州”2023年亚洲藤球锦标赛在金华市体育中心体育馆开赛,

  • 六盘水市第一中学召开省级特色示范性普通高中评估汇报会

    本报讯(乌蒙新报记者石有叶)6月19日,六盘水市第一中学召开省级特色

  • 曲面屏显示器壁纸(曲面屏显示器) 世界报道

    1、曲面屏最初的宣传是转头时看起来画面更自然,但是人体工学上是以静

  • 遇见中国|巴勒斯坦姑娘哈依达:在中国我找到了自己的“心灵”之城|简讯

    因为向往,他们来到中国;因为梦想,他们选择留下。当外国人“遇见中国

  • 基金是直接投资吗?私募基金的投资范围有哪些?-天天视点

    基金是直接投资吗?基金属于间接投资。直接投资和间接投资从概念上来

  • 天天热资讯!中国政法大学怎么样?中国政法大学什么档次?

    中国政法大学怎么样?中国政法大学处于四院五系之中,所以中国政法大

  • 【环球新要闻】重返未来1999以盗治盗足球比赛满分怎么选择 以盗治盗足球比赛满分选择建议

    重返未来1999以盗治盗足球比赛满分怎么选择?重返未来1999里面很多人都

  • 拳皇2002八神连招_八神连招-当前观点

    1、版边小葵花3段后,小葵花1段代步,安全跳C,落地站C慢波,原地跳D抢

  • 王一博现在的地位是什么?王一博年龄是多少?

    地位:根据报道和观众评价来看,王一博在电影圈的地位正在逐渐提升

  • “让利加码”“品味山东•乐购齐鲁”618网购节推动山东本土线下店“借势”线上行!_每日快看

    近年来,数字经济迈入高速发展阶段,数字技术推动经济发展模式的革新,

  • 世界观点:商品期货收盘大面积上涨,棕榈油涨6%,豆油涨5%,菜籽油、豆二涨超4%

    6月16日消息,商品期货收盘大面积上涨,油脂油料领涨。棕榈油涨6%,豆

  • 焦点热门:2023年广东注册会计师考试缴费入口已开通

    2023年广东注册会计师考试缴费入口已开通由注册会计师考试栏目提供,查

  • 比亚迪、奔驰“包馆”,2023粤港澳大湾区车展今日开幕

    信息时报讯(记者罗晓彤)一年一度的粤港澳大湾区车展今日开幕。据粤港

  • 8月5日音乐人赵传用热情的歌声唱响宝鸡|热点聚焦

    “我终于失去了你,当我人生第一次感到光荣,当四周掌声如潮水一般汹涌

  • 民生
    • 朗度728冰箱(关于朗度728冰箱介绍) 每日短讯

    • 要闻速递:离婚协议书2023无子女财产

    • 观察:特种兵式存款是什么意思?特种兵式存款有哪些好处?

    • 突破5亿吨!14亿人,够用一年!