发布日期:2026-04-23 14:14点击次数:

henry 发自 凹非寺开封钢绞线型号及规格一览表
量子位 | 公众号 QbitAI
DeepSeek这小子精了,当全寰宇齐在盯着他的GitHub仓库,恭候V4时——
他和北大、清华在ArXiv悄咪咪地上了篇论文,发布了个全新的针对智能体的理框架:DualPath。
何况就跟前几天曝出的算力话题关系。
DualPath的中枢在于贬责Agent长文本理场景下的I/O瓶颈,通过化从外部存储加载KV-Cache的速率,确保筹画资源不被存储读取牵累。
它改变了传统的存储至预填充引擎(Storage-to-Prefill)单旅途加载时势,引入了存储至解码引擎(Storage-to-Decode)的二条旅途。
通过左右解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并配速筹画收集(RDMA)将其传输至预填充引擎,DualPath完毕了集群存储带宽的全局池化与动态负载平衡。
在660B限制的坐褥模子的实测中,DualPath阐扬惊东说念主:
离线理隐隐量提了1.87倍,在线办事隐隐量平均普及1.96倍。
在负载下,字延伸(TTFT)大幅化,而 Token间的生成速率(TPOT)险些不受任何关扰。
接下来,咱们起来看。
双旅途加载 (Dual-Path Loading)总的来说开封钢绞线型号及规格一览表,DualPath是个门为智能体系统遐想的理框架,它的中枢洞见是——
KV-Cache的加载不以预填充为中心。
在以往的交融中,谁持重筹画谁就去搬数据。但DualPath以为,缓存不错先加载到解码引擎中,再通过能RDMA收集传输至预填充引擎。
通过在两条旅途间动态采用,DualPath重新分派了收集负载,缓解了预填充侧的带宽压力。
那么,为什么要费这样大劲去“绕路”?
手机号码:15222026333之是以这样作念,是因为在现时的智能体应用中,对话轮数多且坎坷文长,KV-Cache掷中率时时达95以上。
这意味着,每轮对话齐要搬运海量的“旧挂牵”,理能的瓶颈还是从“筹画”滚动到了“搬运”上。
在现存的预填充-解码分离(PD-disaggregated)架构中,通盘的加载任务齐拥堵在预填充引擎(PE)的存储网卡上,致带宽须臾实足;
与此同期,解码引擎(DE)的存储网卡却在闲置,变成了严重的资源错配。
杰出的,现时GPU算力的增永恒快于收集带宽和HBM容量的增长,也加重了I/O限制。
正如英伟达科学Bill Dally、谷歌架构师Jeff Dean等大佬反复强调的:筹画是费的,但数据移动是高尚的。
针对这些问题,DualPath构建了调动的双旅途模子:
旅途 A(传统):存储→PE开封钢绞线型号及规格一览表,缓存胜仗读入预填充引擎。旅途 B(新增):存储→DE→PE,缓存先读入解码引擎的缓冲池,再通过RDMA传输给预填充引擎。
在架构构成上:
理引擎: 每个引擎治理块GPU,严格远隔为预填充(PE)妥协码(DE)。流量治理器: 持重H2D/D2H拷贝、引擎间传输以及SNIC存储读写。中央改换器: 担任“大脑”角,及时决议每条申请该走哪条路,从而完毕全局带宽的大化左右。中枢技能案:存储至解码旅途如上所述,DualPath理系统的中枢在于破了传统的“存储至预填充”单旅途时势,调动地引入了“存储至解码”旅途。
该遐想允许KV-Cache先加载至解码引擎(DE),再通过带宽筹画收集(RDMA)损传输给预填充引擎(PE)。
通过在两条旅途间动态分派负载,系统将集群华夏本闲置的解码侧存储网卡(SNIC)带宽开释,锚索构建起个全局可改换的存储I/O资源池。
具体来说,为了复古层流式处理,DualPath在PE和DE上等分派了一丝DRAM缓冲区(PE/DE Buffer),并针对不同阶段遐想了紧密的数据流:
PE读取旅途: 掷中Token的KV-Cache从存储读入PE缓冲区。在每层筹画前,该层缓存传输至PE HBM,与筹画进程重迭履行。筹画完成后,全量KV-Cache传回DE缓冲区以形成圆善坎坷文。DE读取旅途: KV-Cache胜仗干与DE缓冲区。在PE预填充时期,对应层的缓存跨节点传输至PE HBM(筹画重迭)。筹画收尾后,PE仅需传回重生成的KV-Cache片断与DE原有缓存并。解码与执久化: DE缓冲区采用圆善KV-Cache后出手解码,履行H2D拷贝并随后开释CPU内存。天然引入缓冲增多了DRAM压力,但能显赫裁汰GPU显存占用并化字延伸(TTFT)。生成进程中,每积聚满个Block(如 64 Token)即触发异步执久化。但就像前边提到的,“绕路”加载会带来新问题:比如搬运缓存的流量撞上了模子筹画的通讯,怎样办?
对此,DualPath给出了两套化案:
先是以筹画网卡(CNIC)为中心的流量治理,强制通盘流量通过配对的CNIC走GPUDirect RDMA旅途。
在InfiniBand或RoCE收聚合,左右诬捏层(VL/TC)技能,将理通讯设为“先”并预留99带宽,让缓存搬运只可在过失中“蹭”带宽,确保互不热闹。
其次是自相宜申请改换器: 改换器会盯着每个节点的磁盘部队长度和Token数。系统会先将任务分派给I/O压力较小且筹画负载较轻的节点,从根柢上避单侧网卡或单点筹画资源的拥塞。
在实验阶段,DualPath在DeepSeek-V3、Qwen等模子上进行了测试,场景袒护了离线Rollout和在线办事。
如起原所说,在离线理中,DualPath 将端到端隐隐量提了达1.87倍,在线办事隐隐量平均普及1.96倍,显赫裁汰了字延伸(TTFT),且保执了其巩固的Token间延伸(TBT)。
总的来说,DualPath 发挥了通过重新想考数据加载旅途不错有结巴现时大模子理的I/O墙。
它告捷左右了解码引擎蓝本被豪侈的I/O带宽,配自相宜改换和严谨的流量终结机制,在不增多硬件资本的前提下,大幅普及了智能体LLM理系统的率。
One more thing这篇论文的作家吴永彤,是北京大学的博士生,师从金鑫栽植。
他的商榷向聚焦于系统软件与大模子基础治安(LLM Infrastructure),尤其是理系统的工程化与限制化部署。
他当今在DeepSeek系统组,参与下代模子的理基础治安建筑,郑弘大限制软件系统在多硬件平台上的能化。
此前,他还曾在腾讯、华盛顿大学,微软亚研院等机构实习。
参考一语气
[1]https://arxiv.org/pdf/2602.21548
[2]https://jokerwyt.github.io/
— 完 —
量子位 QbitAI · 头条号签约
关爱咱们,时候获知前沿科技动态
相关词条:管道保温施工 塑料挤出设备 预应力钢绞线 玻璃棉厂家 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定开封钢绞线型号及规格一览表,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
15222026333