栏目导航
联系我们
  • 邮编:238000
  • 电话:15077923697
  • 地址:安徽省合肥市百鸟路石柱路5F创客空间508室
推理本钱打到1元百万token浪潮撬动Agent规划化“最终一公里”
来源:米乐体育app客户端下载    发布时间:2025-12-28 22:01:45

  当时全球AI工业已从模型功能比赛迈入智能体规划化落地的“存亡竞速”阶段,

  在此大布景下,浪潮信息推出元脑HC1000超扩展AI服务器,将推理本钱初次击穿至1元/每百万token

  这一打破不只有望打通智能体工业化落地“最终一公里”的本钱妨碍,更将重塑AI工业比赛的底层逻辑。

  未来,AI要真实成为好像 “水电煤” 般的根底资源,token本钱有必要在现有根底上完成数量级跨过,本钱才能将从“中心比赛力”进一步晋级为“生计入场券”,直接决议AI企业在智能体年代的存亡存亡。

  从拨号上网以Kb计费,到光纤入户后百兆带宽成为标配,再到4G/5G年代数据流量本钱趋近于零——每一次通讯本钱的明显下降,都推进了如视频流媒体、移动付出等全新运用生态的迸发。

  当时的AI年代也处于类似的临界点,当技能进步促进token单价下滑之后,企业得以大规划地将AI运用于更杂乱、更耗能的场景,如从前期的简略问答,到现在支撑超长上下文、具有多步规划与反思才能的智能体……

  这也导致单使命对token的需求已呈指数级添加。假如token本钱下降的速度跟不上耗费量的指数添加,企业将面临更高的费用投入,这昭示着经济学中闻名的“杰文斯悖论”正在token经济中完美重演。

  (杰文斯悖论是1865年经济学家威廉·斯坦利·杰文斯提出的悖论:指当技能进步进步了功率,资源耗费不只没有减少,反而激增。例如,瓦特改进的蒸汽机让煤炭焚烧更高效,但成果却是煤炭需求飙升。)

  火山引擎最新发表的多个方面数据显现,到本年12月,字节跳动旗下豆包大模型日均token运用量打破

  ,较去年同期添加超越10倍,比较2024年5月刚推出时的日均调用量添加达417倍;

  谷歌在10月发表,其各渠道每月处理的token用量已达,相当于日均43.3万亿,而一年前月均仅为9.7万亿。

  当运用量到达“百万亿token/月”的量级时,哪怕每百万token本钱只下降1美元,也或许带来每月1亿美元的本钱差异。

  当下,全球大模型比赛从“盲目堆算力”转向“寻求单位算力产出价值”的新阶段。

  单位算力产出价值遭到能源价格、硬件收购本钱、算法优化、运营本钱等多种要素的影响,但毋庸置疑的是,现阶段token本钱80%以上仍然来自算力开支。

  而阻止本钱下降的中心对立,在于推理负载与练习负载天壤之别,沿用旧架构会导致算力、显存与网络资源难以一起最优,导致十分严峻的“高配低效”。

  练习阶段MFU可达50%以上,但在推理阶段,特别是关于寻求低推迟的实时交互使命,因为token的自回归解码特性,在每一轮核算中,硬件有必要加载悉数的模型参数,却只为了核算一个token的输出,导致贵重的GPU大部分时刻在等候数据转移,实践MFU往往仅为5%-10%。这种巨大的算力搁置是本钱高企的结构性本源。

  在大模型推理中,跟着上下文长度的添加,KV Cache呈指数级添加。这不只占用了很多的显存空间,还导致了因为访存密布带来的高功耗。

  这种存算别离不只带来数据搬迁功耗和推迟,还有必要合作运用价格昂扬的HBM,渐渐的变成了阻止token本钱下降的重要瓶颈。

  当模型规划打破单机承载才能时,跨节点通讯成为新瓶颈。传统RoCE或InfiniBand网络的推迟远高于芯片内部的总线推迟,通讯开支或许占有总推理时刻的30%以上,导致企业被逼经过堆砌更多资源来保持响应速度,推高了总具有本钱(TCO)。

  对此,刘军指出,下降token本钱的中心不是“把一台机器做得更全”,而是环绕方针重构体系

  把推理流程拆得更细,支撑P/D别离、A/F别离、KV并行、细粒度专家拆分等核算战略,让不同核算模块在不同卡上按需装备并发,把每张卡的负载打满,让“卡时本钱”更低、让“卡时产出”更高。

  根据全新超扩展架构,元脑HC1000完成推理本钱初次击破1元/每百万token

  当时干流大模型的token本钱仍然昂扬。以输出百万token为例,Claude、Grok等模型的价格遍及在10-15美元,国内大模型尽管相对廉价,也多在10元以上。

  在天文数字等级的调用量下,如此高的token本钱让大规划商业化运用面临严峻的ROI应战。

  因而,要打破本钱僵局,有必要从核算架构层面进行根本性重构,然后大幅度的进步单位算力的产出功率。

  该产品根据全新规划的全对称DirectCom极速架构,选用无损超扩展规划,可高效聚合海量本乡AI芯片,支撑极大推理吞吐量,推理本钱初次击破1元/每百万token,为智能体打破token本钱瓶颈供给极致功能的立异算力体系。

  元脑HC1000立异规划了DirectCom极速架构,每核算模组装备16颗AIPU,选用直达通讯规划,处理传统架构的协议转化和带宽争抢问题,完成超低推迟;核算通讯1:1均衡配比,完成大局无堵塞通讯;全对称的体系拓扑规划,能支撑灵敏的PD别离、AF别离计划,按需装备核算实例,最大化资源利用率。

  一起,元脑HC1000支撑超大规划无损扩展,DirectCom架构保证了核算和通讯均衡,经过算网深度协同、全域无损技能完成推理功能1.75倍提高,而且经过对大模型的核算流程细分和模型结构解耦,完成核算负载的灵敏按需配比,单卡MFU最高可提高5.7倍。

  此外,元脑HC1000经过自适应路由和智能拥塞操控算法,供给数据包级动态负载均衡,完成KV Cache传输和All to All通讯流量的智能调度,将KV Cache传输对Prefill、Decode核算实例影响下降5-10倍。

  刘军着重,当时“1元/每百万token”还远远缺乏,面临未来token耗费量的指数级添加,若要完成单token本钱的继续、数量级下降,需求推进核算架构的根本性改造。

  这也要求整个AI工业的产品技能立异,要从当时的规划导向转为功率导向,从根本上从头考虑和规划AI核算体系,开展AI专用核算架构,探究开发大模型芯片,推进算法硬件化的专用核算架构立异,完成软硬件深度优化,这将是未来的开展方向。

  特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。

  女子共享10年前火车上偶遇的歌唱小男孩,竟被当事人刷到:互联网让10年前的“一面之缘”有了续集

  22名敢死队员拼死拿下泸定桥后奥秘消失,40年后河北一份绝密档案,意外揭开尘封半个世纪的惊人线万吨大驱发射鹰击-20高明弹

  多地提出公务员选用将网络言行归入调查 专家:政治、价值观要求一直是公的要点内容

  “14岁来成都时,我从没想过能当上副乡长”——一所职校的160名民族学生生长记

  1486.41万台!iPhone17系列中国市场销量刷新纪录,力压国产机!