从GPU到TokenPU:AI芯片进入3D时代

韬定律在最近引发业界巨大的关注,其核心观点在于,未来半导体性能提升不仅依赖晶体管几何尺寸微缩,还需要通过时间尺度优化来降低延迟、提升能效。
算苗科技创始人&CEO汪福全对此高度认同,他认为:”时间维度的优化甚至比传统几何微缩更加基础。从本质上看,无论是混合键合(Hybrid Bonding)还是逻辑堆叠(Logic Stacking),都是通过3D集成缩短数据传输路径,从而实现‘时间微缩’。”
汪福全介绍,事实上算苗科技是国内最早布局3D混合键合算力芯片的团队之一,算苗团队核心成员自2019年以来持续深耕该领域,是国内将混合键合技术率先引入AI算力芯片设计的先行者和开拓者。经过多年投入,公司已与国内产业链伙伴共同构建起完整的3D芯片供应链体系,并在相关技术和产业化实践上保持领先。
日前,算苗科技宣布,正式流片国产自研3D TokenPU芯片A4E。TokenPU究竟是什么?这种芯片又能解决当下什么问题?在一次媒体会上,汪福全以及算苗科技首席AI科学家楼建光向EEWorld解答了相应的问题。
“Token经济”无疑是当下最热的词语。大模型时代最重要的评价指标已经不再是传统意义上的TOPS、带宽或峰值算力,而是实际推理吞吐量和单位Token能耗。最终决定商业价值的,是每秒能够生成多少Token,以及生成每个Token需要消耗多少能量。随着Token成为衡量智能的重要标准,AI产业正在进入更加成熟和稳定的发展阶段。
过去几年,全球Token需求呈现指数级增长,仅在数年间增长幅度便达到数百倍甚至上千倍。随着全球Token消耗量持续攀升,AI产业正面临严峻的能源挑战。据测算,目前全球每天生成的Token规模已达到数百万亿级别,而推理成本中最大的支出正是电力消耗。因此,未来AI芯片竞争的核心将从单纯追求峰值性能转向追求极致能效比。
在这样的发展之下,算力产业正迎来一次底层架构的重构。汪福全认为,继二维芯片、2.5D封装之后,半导体产业正在进入线D芯片时代。
从产业演进角度来看,GPU与HBM的结合代表了2.5D时代,而混合键合和逻辑堆叠则推动行业进入线D时代。面对大模型推理过程中几乎无限增长的Token需求,传统架构已经难以满足性能与能效要求,3D集成成为突破算力瓶颈的关键路径。
在这一背景下,算苗科技正式提出TokenPU概念。汪福全介绍,GPU诞生于PC时代和图形计算时代,本质上是面向图像、视频和并行计算设计的处理器架构;而大模型时代需要一种原生面向Token处理的新型处理器。TokenPU正是在这一背景下提出的AI原生处理器架构,其目标是统一各种大模型计算框架,为生成式AI时代提供更高效的底层算力支撑。
他指出,大模型本质上是Token处理系统。从输入的上下文、代码、文本,到输出的文本、图像和视频,本质上都可以抽象为Token序列。未来包括多模态内容、世界模型以及具身智能产生的数据,也将被统一映射为Token,并通过预测下一个Token的方式实现智能生成。
为什么算苗科技选择推理赛道,而不是训练赛道?从市场的角度看,未来90%的AI算力需求都将发生在推理侧,大模型推理算力的需求将远大于训练算力。
为什么算苗科技不选择GPU赛道,而是将全部资源集中投入到3D TokenPU芯片这一长期方向?汪福全认为,未来AI产业对Token吞吐量和能效的追求将不断提升,计算架构买球官方网站也将从通用计算逐步走向场景化、专用化。由于需要兼顾图形渲染、科学计算、AI训练等多种应用场景,GPU必须维持高度通用性,而无法针对单一负载进行极致优化。3D芯片与ASIC架构的结合,有望成为大模型推理时代的重要技术路线。
基于这一判断,公司认为Scaling Law仍将长期有效。当前业界广泛采用的MoE等模型架构,本质上也是为了降低计算和能耗成本,而非改变大模型的发展方向。随着具身智能和通用机器人时代到来,Token规模仍将持续增长,对算力和能源的需求也将进一步提升。
产品布局方面,算苗科技第一代TokenPU产品A4E已流片,正式进入制造阶段。第二代产品A4S也已完成架构定义,预计将在2027年2月底前后启动流片,形成”一代流片、一代定义”的迭代节奏。
A4E和A4S两代产品之间预计实现2至3倍性能提升,并基于国产成熟制程和国产供应链实现研发和制造。
具体来说,A4E通过将8层存储晶圆垂直堆叠在计算逻辑晶圆之上,并利用硅通孔(TSV)和凸点(Bump)技术实现微米级互联,大幅缩短数据传输路径。相较于传统芯片间毫米级互连,其传输距离降低两个数量级,带来更高的访存带宽和数据交换效率,为大模型推理提供充足的数据供给,有效破解“数据饥饿”难题。
“大模型时代最核心的技术挑战并非计算单元本身,而是内存带宽瓶颈。”汪福全表示,随着模型参数规模不断扩大,数据搬运逐渐成为制约系统性能的关键因素。
据了解,英伟达H100跑AI推理时,高达70%计算单元在空转,等待数据从内存中搬运过来。过去20年,摩尔定律驱动计算能力增长了60000倍,而内存带宽仅仅增长了100倍。
正是为了突破这一瓶颈,算苗团队核心成员从2019年开始探索3D混合键合技术,并最终通过3D堆叠架构实现超高带宽互连。
算苗科技把内存芯片直接盖在了计算核心的楼上(缩短搬运距离),并且修建了数百万部垂直电梯,原材料可以快速搬运到工厂的各个角落,不再受限于大门宽度,从而实现16~32TB/s的带宽。同时,算苗科技设计的工厂(计算芯片)是专门用于推理AI大模型的(专用芯片),因此可以用更少的设备(12nm工艺)来实现更高的推理性能。
当下AI芯片路线非常多,对于这些芯片来说内存选择至关重要,比如GPU/NPU搭载HBM、LPU搭载SRAM、存算一体芯片搭载RRAM。
相比传统HBM方案,3D混合键合能够通过上百万级互连实现更高的数据传输效率。HBM本身已经是高带宽存储的重要创新,但其依然受制于标准总线D混合键合则采用面向特定场景的极致优化思路,从根本上突破传统架构限制。
基于这一判断,算苗科技将技术路线D DRAM集成与能效优化。来解决“内存墙”对于AI大模型计算的制约。目前3D DRAM的带宽可达到32TB/s,相当于英伟达B200的4倍。而算苗科技的研发重点,就是要将高带宽转化为实实在在的推理性能。
汪福全强调,在光计算、存算一体等下一代技术尚未成熟之前,3D混合键合是当前唯一具备大规模量产能力、能够显著提升AI算力效率的现实路径。
汪福全在会议上不断强调国产供应链的重要性。他表示,过去数年的行业实践表明,只有建立自主可控、可规模化量产的产业体系,才能真正解决中国AI产业的算力需求。为此,算苗科技持续推动国产EDA、国产工艺和国产封装生态建设,并与国内头部大模型企业共同定义产品需求和优化方向。
目前,公司已累计融资近10亿元,其中约三分之一来自国资背景资本,其余主要来自产业资本及金融机构。公司超过190人,研发人员占比约80%,核心成员来自清华大学、中国科学院、浙江大学、微软亚洲研究院等机构。公司预计到年底团队规模将扩展至300人左右。
对于未来市场,公司预计第一代产品将在明年进入量产阶段。随着国产AI基础设施建设加速以及Token需求持续增长,3D TokenPU有望成为大模型推理时代的重要基础设施。

上一篇
