
在智能体活跃,token(词元)糟践量呈指数级加多的2026年,token经济以及算力的受怜爱进度成千上万。以“龙虾”OpenClaw为代表的智能体需要糟践算力,用户必须从token供应商处获取API key(密钥),才能让这些智能体广博起先。
不外,许多东说念主不知说念的是,即即是并吞款模子,左证供应商的不同,其token的“质地”也会存在互异。近日,清华大学计算机系长聘西宾、博士生导师,清程极智首席科学家翟季冬袭取了新京报贝壳财经记者的采访,揭开了token经济中这一“掩蔽的边际”。
此外,看成曾指导清华团队十五次赢得国际大学生超算竞赛冠军的指引本分,翟季冬和团队成员也对现时国产算力芯片奈何与大模子进行适配,以及二者之间“推理引擎”层的作用,对新京报贝壳财经记者进行了科普。

清华大学计算机系长聘西宾、博士生导师,清程极智首席科学家翟季冬回报记者发问。罗亦丹/摄
并吞模子,低廉token有可能更“花钱”
“token是本年最火的词,但token底层触及好多本领。”翟季冬开门见平地说,在他看来,token产业不错分为三层:底层是在芯片上部署大模子,坐蓐token的坐蓐层;中间层是看成token供应商转运分发token的运动层;最表层则是个东说念主和企业用户径直调用API消费token的使用层。
这三层结构听上去跟电力系统有些相似,但翟季冬强调,两者的进修度通盘不在一个量级,“当咱们用电时,无用讲究发出来的电有‘永别’,但token不同,相通的模子、相通的价钱,token质地却可能杂乱不皆。”
他告诉记者,实质上,token供应商的野心有好多,除了下里巴人的价钱、高下文长度外,还有首字延长、费解量,以及等闲用户较难领略的精度、 KV Cache(键值缓存)射中等。
而这些“掩蔽的细节”可能决定模子的成果和token糟践的大小。
在模子成果方面,翟季冬例如称,比如模子发布时可能接纳了BF16精度,但有些供应商会把它量化成INT8致使INT4来部署,克己是算力糟践减半,不错承载更多用户,代价是模子才气被“编著”了,2026世界杯买球赛的正规app不再是原汁原味的成果。
据了解,FP16、INT8等专科术语指的是大模子推理的精度,数字(4/8/16/32/64)代表位数,一般来说,位数越高,计算精度越高、纵容越准,但速率越慢、糟践算力越大;位数越低,速率越快、越省算力,但会狭窄耗损模子成果。
而在token糟践量方面,翟季冬给记者算了一笔账:相通的模子,一家供应商报价每百万token3元,另一家报价1元,看似低廉的那家,实质总资本可能反而更高。“它有两行报价,一转是token射中,可能是一毛钱,token不射中是一块钱。然则它的token坐蓐作念得很差,你的这些肯求都不射中,临了反而花钱。”
斗鱼体育app中国官网下载清程极智聚合首创东说念主师天麾讲解称,现金炸金花游戏软件这里的中枢本领是KV Cache(键值缓存)解决——在多轮对话场景中,缓存射中不错检朴90%的资本,但不同供应商的缓存解决水平差距雄伟,其中报价低的行状商也许缓存并不高,本该检朴的那些缓存没能检朴,导致总资本很高。但行状商在卖token时,一般不会径直阐发缓存射中率是若干,致使有些行状商径直不给缓存射中的优惠价钱。
针对这一乱象,清程极智推出了AI Ping一站式大模子行状评测与API智能路由平台,咫尺,平台已接入30余家主流行状商、600余个大模子行状,隐私文本、图片、视频等全场景;通过7×24小时多地域分散式监测,及时输出延长、费解、可靠性、价钱等中枢野心。

不同供应商提供的DeepSeek-V4-Pro模子的token延长情况对比图。数据起头:aiping.cn
6月8日,新京报贝壳财经记者登录AI Ping平台,当场张望了DeepSeek-V4-Pro模子不同token供应商的延长情况,发现其纪录了价钱、延长、费解等野心。如关于延长这一野心,一些行状商的弧线波动极大,而最为褂讪的则是DeepSeek官方提供的token。
“中国的电力系统在全寰宇是第一的,咱们但愿通过各式极力,好像把我国token行状的质地和性能也作念到全寰宇第一。”翟季冬说。
芯片发展趋势:复古的精度类型越来越多
token质地的互异,追本穷源要落到芯片和推理引擎上。一个容易被忽略的事实是:在国产算力和国产模子之间,并不是径直对接的相干,中间还隔着一层至关进军的“推理引擎”。这层软件承先启后,决定了芯片的算力能不可被高效开释,也决定了最毕坐蓐出来的token质地够不够好。
翟季冬用精度问题向贝壳财经记者讲解了推理引擎的价值——“好多东说念主认为芯片正在向精度越来越高发展,但事实上,芯片正在向复古的精度类型越来越多发展,例如,传统CPU可能只复古三、四种精度类型,而当今的AI芯片能复古十几种,从FP64、FP32、FP16到FP8、FP4,还有INT8、INT4等整数精度,每一种都有不同的性能和成果量度。”
“模子不是说一定要选最高的精度才好,因为精度更高的同期,也更慢,每个模子会选一个恰到克己的精度。”清程极智聚合首创东说念主唐适之补充说念,“咫尺来讲,主流模子的采取常常随同英伟达走——比如FP8就是英伟达推出Hopper系列显卡时新增的精度,DeepSeek认为FP8最相宜我方的模子,就选了这个法度。”
但问题随之而来:国产芯片的精度复古并不通盘跟英伟达对皆。“对DeepSeek来讲,国产卡有的精渡过高有的精渡过低,使用起来无论奈何都是有耗损的。”
这恰是推理引擎的用武之地。翟季冬告诉记者,外洋主流推理引擎如vLLM、SGlang对英伟达、AMD的生态复古更好,但对国产芯片的优化参预有限。针对大模子部署资本高、国产算力适配不及的痛点,清程极智推出了自主研发的国产推理引擎赤兔,其对国产模子、国产芯片的复古在很厚情况下比vLLM、SGlang要更好。
这种上风不仅仅体当今精度适配层面。唐适之先容,不同国产芯片的硬件本性互异很大,比如有些卡的张量计算才气和标量计算才气之间的量度跟英伟达不一样,有些卡的卡间互联神态也不同,推理引擎需要针对这些特色作念定制化联想。“咱们要着实地左证国产卡上头的特色来选咱们的罢了决策,而不是说看英伟达上头有这个精度就选这个精度。”
“咱们将捏续深耕AI基础依次限制,坚捏中枢本领自主可控,不休迭代赤兔推理引擎对国产芯片的适配才气,完善AI Ping评测与路由行状,联动国产算力、国产模子、行业诳骗等产业链伙伴,打造高效、普惠、安全的国产AI基础依次体系,反映国度‘东说念主工智能+’行为,以本领改变鼓舞中国AI产业高质地发展。”翟季冬说。
新京报贝壳财经首席记者 罗亦丹 编著 陈莉 校对 柳宝庆现金炸金花游戏软件