AI落地千行百业,存储痛点突显,波浪信息何如助力AI向实?

你的位置:湘潭笙速百货经营部(个人独资) > 新闻动态 > AI落地千行百业,存储痛点突显,波浪信息何如助力AI向实?
AI落地千行百业,存储痛点突显,波浪信息何如助力AI向实?
发布日期:2024-11-10 10:27    点击次数:53

AI落地千行百业,存储痛点突显,波浪信息何如助力AI向实?

作家 | 陈骏达裁剪 | 漠影

AI期间,存储不仅是数据的栖息之地,更是AI模子西宾、落地经由中的坚实底座。

在AI开启的存储行业新周期中,宽敞厂商已将带宽等性能策画卷至新的高度。然则,这种追求似乎将AI这一复杂应用场景粗陋地“存储化”了。

实验上,AI对存储的需求远不啻于性能这一维度自身,更需要让存储“AI化”,相貌全体存储处罚有策画与AI应用场景的契合度。这少量,亦然各人独一的AI/ML存储基准测试——MLPerf所相貌的实验。

MLPerf存储基准测试面向AI/ML用户的痛点,即存储和推测的均衡及两者的灵验哄骗。然则测试中存储架构的千般与存算节点的非尺度化,导致性能数据自身的参考价值有所着落。

在性能数据以外,有无另一策画不错更为准确地反应存储系统在AI场景的发扬呢?MLPerf存储基准测试条目加快器哄骗率需达到90%或70%,在这一区间内视察节点所能支抓的最大加快卡数,测试其能否尽可能跑满每个客户端的表面带宽,以终了最好存储性能。

在MLPerf存储基准测试中,由于表面带宽是调治的,因此通盘厂商的处罚有策画均可归一化到集聚哄骗率这一策画上,进行相对客不雅的评估。集聚哄骗率的提高意味着老本的缩短,算力潜能的更充分开释,存储与AI应用场景的契合度也越高。

本年9月,新一轮MLPerf存储基准测试收货发布,其中,中国企业波浪信息的分散式存储平台AS13000G7,在图像分割模子3D-UNet和天文体模子CosmoFlow推测8项测试中斩获5项最好收货。这一平台在集聚哄骗率上展现出20%傍边的上风,断层特出。

值得一提的是,本次MLPerf存储基准测试已升级至1.0版块,这一升级建议了哪些新的条目,波浪信息又是何如凭借其技艺积淀与全体处罚有策画,赢得新版测试中的多项最好收货的呢?

一、MLPerf测试迎升级,存储助力AI算天文分图像

2018年,图灵奖得主大卫·帕特森(David Patterson)勾通斯坦福、哈佛等顶尖学术机构和谷歌、百度等AI行业头部企业,共同发起了MLCommons协会,同庚推出首款测试套件MLPerf,现在,该测试是影响力最广的国外AI性能基准评测之一。

▲图灵奖得主大卫·帕特森(图源:ACM)

MLPerf系列测试套件得到学界和产业界的平素认同。其中,MLPerf存储基准测试是特意用于AI复杂负载下存储系统性能的测试套件,最大程度地模拟了AI任务的真实负载,数据视察的pipeline、架构、软件栈均与实验西宾门径无异,已成为AI/ML模子诱导者取舍存储处罚有策画的泰斗参考依据。

▲波浪信息是MLCommons的首创成员之一(图源:MLCommons官网)

本次MLPerf存储基准测试1.0版块测试蛊惑了各人13家特出存储厂商和经营机构的参与,测试内容也迎来环节升级,陈述了当下复杂AI应用场景对存储建议的新需求。

一方面,存储系统的带宽峰值处理才略迎来新的挑战,测试独特相貌了在高性能GPU达到一定使用率的情况下,存储系统能为AI集群提供的全体带宽和单个节点的带宽。

另一方面,测试还强化了对分散式西宾的查验,独特相貌每个存储节点好像支抓的GPU数目,以此来考虑用户在AI存储方面的投资效益。

在本次测试中,波浪信息使用3台AS13000G7平台搭建分散式存储集群,并配备ICFS自研分散式文献系统,参与了3D-UNet和CosmoFlow两个单项的测试。

手脚图像分割范围最具影响力的AI模子,3D-UNet模子的测试中使用了海量的图像类非结构化数据,条目存储平台具备高带宽、低时延的特色,智力保证GPU的高效哄骗。CosmoFlow天地学分析模子参数目仅有10万-20万,如斯之小的模子对时延建议了更高的条目。二者皆是典型的数据密集型应用。

在3D-UNet多客户端2评测任务中,波浪信息的存储平台工作于10个客户端264个加快器,集群团聚带宽达到360GB/s,单个存储节点的带宽高达120GB/s。

在天地学分析CosmoFlow单客户端2和多客户端2评测任务中,波浪信息的存储平台差别提供了18 GB/s和52 GB/s的带宽最好收货。

二、契合AI使用场景,兼顾性能、遵循、韧性

波浪信息多项最好收货的背后,是其面向AI期间,提高存储平台性能、遵循和韧性的发愤。

性能层面,波浪自研分散式软件栈中的全新数控分离架构处罚了分散式存储数据流在节点间流转的转提问题,减少东西向(节点间)数据转发量80%。这一性能的提高能匡助客户检朴多数的存储老本,系统性价比也相应改善。

遵循层面,波浪信息通过多左券数据会通技艺,处罚了AI应用场景使用多种数据接入左券形成的存储遵循问题,最高可检朴50%的数据存储空间。

韧性层面,为得志AI业务对抓续性的条目,波浪信息的可靠性主动不断技艺、AIOps系统故障预推测法和勒诈软件检测技艺,灵验预防了缔造故障和数据安全问题的出现。关联技艺对硬盘故障的预计准确率达到98%,对勒诈软件的检测漏报率仅有0.029%。

何如将技艺整合落地,将技艺策画飞舞为实验限制,最终形成齐备且适配AI场景的处罚有策画,则是真是造福AI行业客户的关节。

波浪信息与AI场景细巧契合,凭借其产物场景化定制才略与教训的AI场景处罚有策画才略,打造出了真是贴合AI需求的存储产物,为AI场景构建坚实的数据复古平台。

以本次测试中3D-UNet加快器H多客户端下的测试限制为例,波浪信息的多路并发透传技艺灵验减少了I/O操作中不绝的高下文切换,缩短单次I/O时延50%。本次测试的3D-UNet场景中,3节点存储复古了1430个高并发读线程,推测节点集聚哄骗率达到了72%。

集聚哄骗率的提高灵验缩短了集聚资源的赔本。在客户端设置双网卡情况下,部分参赛处罚有策画仅有50%的集聚哄骗率,意味着整套有策画实质上赔本了近乎一整张网卡资源,大大增多了总体老本。

若在大模子西宾的万卡集群下,低集聚哄骗率形成的网卡资源的赔本可能高达数千万级别,更不消说缔造扩容所激发的算力哄骗率着落、相接线增多、运维复杂度提高等连锁老本效应。

关于本就老本好意思丽的AI基础行为而言,任何不错削减的开支皆显得尤为关节。波浪信息存储处罚有策画在集聚哄骗率上的彰着上风,解说了关联有策画对AI场景的高度适配。

在实行中,波浪信息的存储处罚有策画还是在互联网企业大模子西宾推理场景、大型AI算力中心与某国度重心实验室中落地。

举例,在大模子场景西宾中,波浪信息通过增多全闪存储匡助客户终了遵循提高,将断电续训时刻缩短到分钟级别。新增20台全闪存储提高的遵循,畸形于新增了10多台GPU工作器,从投资角度上来看,每100万存储投资畸形于300万的GPU工作器投资。

而针对大模子推理场景中多文献左券特色,波浪信息的会通存储有策画让客户检朴了左券飞舞的时刻,使得数据集聚准备时刻检朴30%,存储空间也大幅检朴。

结语:生成式AI步入下半场,存储成AI向实关节

据工信部测算,到2035年,中国生成式AI的市集范畴将随便30万亿元,制造业、医疗健康、电信行业和零卖业对生成式AI技艺的遴选率迎来较快增长。

2024年,生成式AI正往常所未有的速率走入千行百业。AI行业还是由百模大战时期的“卷模子”,调度为“卷场景、卷应用”,或将迎来下半场的角逐。

在AI向实发展的进度中,数据是相接物理寰宇与数字寰宇的迫切桥梁,而存储手脚数据的载体,抓续在AI落地的实行中剖析关节作用。