首页 > 科技 >

华为云发布EMS弹性内存存储,突破内存墙限制

发布时间:2024-07-02 14:51:38来源:网络转载
华为云发布EMS弹性内存存储,突破内存墙限制
华为云近日发布了一项新的技术突破,即EMS弹性内存存储服务,这一服务旨在解决大模型训练与推理领域面临的“内存墙”挑战。
这一挑战主要是由于单个神经处理单元(NPU)的高带宽内存(HBM)容量限制所致,这个问题长期制约着AI算力的有效利用。华为云的解决方案是在NPU卡与持久化存储之间增设了一层弹性内存存储,运用专利技术MemoryPooling,通过显存扩展、算力卸载和以存代算三大策略,有效打破了内存瓶颈。
具体来说,显存扩展使得大模型推理中,由于模型过大,通常需要大量NPU卡才能将模型参数装下来进行推理,但NPU的算力利用率往往不高。EMS将模型参数分层存储在显存和EMS中,只用了一半的卡,就能存下万亿参数的大模型,从而减少了NPU的部署数量。
算力卸载则是将大模型推理过程中包括模型计算和KV相关计算中的KV相关计算步骤卸载到EMS中, 而模型计算仍在NPU中进行,这样将AI推理性能提升了100%。
以存代算是指在大模型推理中为了节省显存,历史对话的KVCache都不会保存,后续推理都只能重新计算,导致新推理的首Token时延超过1秒。现在可以将历史KVCache保存在EMS里,供后续推理直接调用,从而优化了推理首Token时延。
目前,EMS弹性内存存储服务已在华为云官网上线,面向开发者与客户开放。这一技术突破不仅提高了AI计算的效率,也为未来的大模型训练与推理提供了更多的可能性。

本文链接:http://www.buyunting.com/content-25-2733-1.html

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。