华为云发布EMS弹性内存存储,突破内存墙限制
发布时间:2024-07-02 14:51:38来源:网络转载
华为云发布EMS弹性内存存储,突破内存墙限制
华为云近日发布了一项新的技术突破,即EMS弹性内存存储服务,这一服务旨在解决大模型训练与推理领域面临的“内存墙”挑战。
这一挑战主要是由于单个神经处理单元(NPU)的高带宽内存(HBM)容量限制所致,这个问题长期制约着AI算力的有效利用。华为云的解决方案是在NPU卡与持久化存储之间增设了一层弹性内存存储,运用专利技术MemoryPooling,通过显存扩展、算力卸载和以存代算三大策略,有效打破了内存瓶颈。
具体来说,显存扩展使得大模型推理中,由于模型过大,通常需要大量NPU卡才能将模型参数装下来进行推理,但NPU的算力利用率往往不高。EMS将模型参数分层存储在显存和EMS中,只用了一半的卡,就能存下万亿参数的大模型,从而减少了NPU的部署数量。
算力卸载则是将大模型推理过程中包括模型计算和KV相关计算中的KV相关计算步骤卸载到EMS中, 而模型计算仍在NPU中进行,这样将AI推理性能提升了100%。
以存代算是指在大模型推理中为了节省显存,历史对话的KVCache都不会保存,后续推理都只能重新计算,导致新推理的首Token时延超过1秒。现在可以将历史KVCache保存在EMS里,供后续推理直接调用,从而优化了推理首Token时延。
目前,EMS弹性内存存储服务已在华为云官网上线,面向开发者与客户开放。这一技术突破不仅提高了AI计算的效率,也为未来的大模型训练与推理提供了更多的可能性。
华为云近日发布了一项新的技术突破,即EMS弹性内存存储服务,这一服务旨在解决大模型训练与推理领域面临的“内存墙”挑战。
这一挑战主要是由于单个神经处理单元(NPU)的高带宽内存(HBM)容量限制所致,这个问题长期制约着AI算力的有效利用。华为云的解决方案是在NPU卡与持久化存储之间增设了一层弹性内存存储,运用专利技术MemoryPooling,通过显存扩展、算力卸载和以存代算三大策略,有效打破了内存瓶颈。
具体来说,显存扩展使得大模型推理中,由于模型过大,通常需要大量NPU卡才能将模型参数装下来进行推理,但NPU的算力利用率往往不高。EMS将模型参数分层存储在显存和EMS中,只用了一半的卡,就能存下万亿参数的大模型,从而减少了NPU的部署数量。
算力卸载则是将大模型推理过程中包括模型计算和KV相关计算中的KV相关计算步骤卸载到EMS中, 而模型计算仍在NPU中进行,这样将AI推理性能提升了100%。
以存代算是指在大模型推理中为了节省显存,历史对话的KVCache都不会保存,后续推理都只能重新计算,导致新推理的首Token时延超过1秒。现在可以将历史KVCache保存在EMS里,供后续推理直接调用,从而优化了推理首Token时延。
目前,EMS弹性内存存储服务已在华为云官网上线,面向开发者与客户开放。这一技术突破不仅提高了AI计算的效率,也为未来的大模型训练与推理提供了更多的可能性。
本文链接:http://www.buyunting.com/content-25-2733-1.html
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
-
合资插混最强匮电也是龙 雪佛兰探界者Plus上市:14.99万起!
雪佛兰首款智电插混SUV探界者Plus今日正式上市,共推4款配置车型,售价区间14 99-17 99万元。该车采用新一代设计语言,延续美式SUV典型的设 [详细] -
光峰科技发布2023年财报:营收22.13亿元 经营现金流大增105%
4月26日晚间,光峰科技披露2023年年报。年报显示,2023年光峰科技实现营业收入22 13亿元;归母净利润实现1 03亿元;整体毛利率达到36 22%; [详细] -
张艺谋《第二十条》网播上线:爱奇艺、腾讯视频、优酷会员免费看
今日,张艺谋电影《第二十条》正式开启网播,上线爱奇艺、腾讯视频、优酷、芒果TV、B站等视频平台,开通平台会员后可免费观看。据了解,《 [详细] -
《蛋仔派对》注重保护未成年人网络安全 保护未成年人不受到诈骗
在目前这个飞速发展的数字化时代,互联网让我们的娱乐生活得到了极大的丰富,各种各样的游戏层出不穷,但网络安全问题也随之凸显,大额充值 [详细] -
百度:AI专利申请量、授权量国内第一
在第24个世界知识产权日来临之际,百度昨日举办专利运用赋能AI产业高质量发展论坛。在论坛上,百度首席技术官王海峰透露,百度在以大模型为 [详细]