从GPU到TokenPU：AI芯片进入3D时代

发布时间：2026-06-26 22:33 浏览次数：次作者：小编

从GPU到TokenPU：AI芯片进入3D时代(图1)

　　韬定律在最近引发业界巨大的关注，其核心观点在于，未来半导体性能提升不仅依赖晶体管几何尺寸微缩，还需要通过时间尺度优化来降低延迟、提升能效。

　　算苗科技创始人&CEO汪福全对此高度认同，他认为：”时间维度的优化甚至比传统几何微缩更加基础。从本质上看，无论是混合键合（Hybrid Bonding）还是逻辑堆叠（Logic Stacking），都是通过3D集成缩短数据传输路径，从而实现‘时间微缩’。”

　　汪福全介绍，事实上算苗科技是国内最早布局3D混合键合算力芯片的团队之一，算苗团队核心成员自2019年以来持续深耕该领域，是国内将混合键合技术率先引入AI算力芯片设计的先行者和开拓者。经过多年投入，公司已与国内产业链伙伴共同构建起完整的3D芯片供应链体系，并在相关技术和产业化实践上保持领先。

　　日前，算苗科技宣布，正式流片国产自研3D TokenPU芯片A4E。TokenPU究竟是什么？这种芯片又能解决当下什么问题？在一次媒体会上，汪福全以及算苗科技首席AI科学家楼建光向EEWorld解答了相应的问题。

　　“Token经济”无疑是当下最热的词语。大模型时代最重要的评价指标已经不再是传统意义上的TOPS、带宽或峰值算力，而是实际推理吞吐量和单位Token能耗。最终决定商业价值的，是每秒能够生成多少Token，以及生成每个Token需要消耗多少能量。随着Token成为衡量智能的重要标准，AI产业正在进入更加成熟和稳定的发展阶段。

　　过去几年，全球Token需求呈现指数级增长，仅在数年间增长幅度便达到数百倍甚至上千倍。随着全球Token消耗量持续攀升，AI产业正面临严峻的能源挑战。据测算，目前全球每天生成的Token规模已达到数百万亿级别，而推理成本中最大的支出正是电力消耗。因此，未来AI芯片竞争的核心将从单纯追求峰值性能转向追求极致能效比。

　　在这样的发展之下，算力产业正迎来一次底层架构的重构。汪福全认为，继二维芯片、2.5D封装之后，半导体产业正在进入线D芯片时代。

　　从产业演进角度来看，GPU与HBM的结合代表了2.5D时代，而混合键合和逻辑堆叠则推动行业进入线D时代。面对大模型推理过程中几乎无限增长的Token需求，传统架构已经难以满足性能与能效要求，3D集成成为突破算力瓶颈的关键路径。

　　在这一背景下，算苗科技正式提出TokenPU概念。汪福全介绍，GPU诞生于PC时代和图形计算时代，本质上是面向图像、视频和并行计算设计的处理器架构；而大模型时代需要一种原生面向Token处理的新型处理器。TokenPU正是在这一背景下提出的AI原生处理器架构，其目标是统一各种大模型计算框架，为生成式AI时代提供更高效的底层算力支撑。

　　他指出，大模型本质上是Token处理系统。从输入的上下文、代码、文本，到输出的文本、图像和视频，本质上都可以抽象为Token序列。未来包括多模态内容、世界模型以及具身智能产生的数据，也将被统一映射为Token，并通过预测下一个Token的方式实现智能生成。

　　为什么算苗科技选择推理赛道，而不是训练赛道？从市场的角度看，未来90%的AI算力需求都将发生在推理侧，大模型推理算力的需求将远大于训练算力。

　　为什么算苗科技不选择GPU赛道，而是将全部资源集中投入到3D TokenPU芯片这一长期方向？汪福全认为，未来AI产业对Token吞吐量和能效的追求将不断提升，计算架构买球官方网站也将从通用计算逐步走向场景化、专用化。由于需要兼顾图形渲染、科学计算、AI训练等多种应用场景，GPU必须维持高度通用性，而无法针对单一负载进行极致优化。3D芯片与ASIC架构的结合，有望成为大模型推理时代的重要技术路线。

　　基于这一判断，公司认为Scaling Law仍将长期有效。当前业界广泛采用的MoE等模型架构，本质上也是为了降低计算和能耗成本，而非改变大模型的发展方向。随着具身智能和通用机器人时代到来，Token规模仍将持续增长，对算力和能源的需求也将进一步提升。

　　产品布局方面，算苗科技第一代TokenPU产品A4E已流片，正式进入制造阶段。第二代产品A4S也已完成架构定义，预计将在2027年2月底前后启动流片，形成”一代流片、一代定义”的迭代节奏。

　　A4E和A4S两代产品之间预计实现2至3倍性能提升，并基于国产成熟制程和国产供应链实现研发和制造。

　　具体来说，A4E通过将8层存储晶圆垂直堆叠在计算逻辑晶圆之上，并利用硅通孔（TSV）和凸点（Bump）技术实现微米级互联，大幅缩短数据传输路径。相较于传统芯片间毫米级互连，其传输距离降低两个数量级，带来更高的访存带宽和数据交换效率，为大模型推理提供充足的数据供给，有效破解“数据饥饿”难题。

　　“大模型时代最核心的技术挑战并非计算单元本身，而是内存带宽瓶颈。”汪福全表示，随着模型参数规模不断扩大，数据搬运逐渐成为制约系统性能的关键因素。

　　据了解，英伟达H100跑AI推理时，高达70%计算单元在空转，等待数据从内存中搬运过来。过去20年，摩尔定律驱动计算能力增长了60000倍，而内存带宽仅仅增长了100倍。

　　正是为了突破这一瓶颈，算苗团队核心成员从2019年开始探索3D混合键合技术，并最终通过3D堆叠架构实现超高带宽互连。

　　算苗科技把内存芯片直接盖在了计算核心的楼上（缩短搬运距离），并且修建了数百万部垂直电梯，原材料可以快速搬运到工厂的各个角落，不再受限于大门宽度，从而实现16～32TB/s的带宽。同时，算苗科技设计的工厂（计算芯片）是专门用于推理AI大模型的（专用芯片），因此可以用更少的设备（12nm工艺）来实现更高的推理性能。

　　当下AI芯片路线非常多，对于这些芯片来说内存选择至关重要，比如GPU/NPU搭载HBM、LPU搭载SRAM、存算一体芯片搭载RRAM。

　　相比传统HBM方案，3D混合键合能够通过上百万级互连实现更高的数据传输效率。HBM本身已经是高带宽存储的重要创新，但其依然受制于标准总线D混合键合则采用面向特定场景的极致优化思路，从根本上突破传统架构限制。

　　基于这一判断，算苗科技将技术路线D DRAM集成与能效优化。来解决“内存墙”对于AI大模型计算的制约。目前3D DRAM的带宽可达到32TB/s，相当于英伟达B200的4倍。而算苗科技的研发重点，就是要将高带宽转化为实实在在的推理性能。

　　汪福全强调，在光计算、存算一体等下一代技术尚未成熟之前，3D混合键合是当前唯一具备大规模量产能力、能够显著提升AI算力效率的现实路径。

　　汪福全在会议上不断强调国产供应链的重要性。他表示，过去数年的行业实践表明，只有建立自主可控、可规模化量产的产业体系，才能真正解决中国AI产业的算力需求。为此，算苗科技持续推动国产EDA、国产工艺和国产封装生态建设，并与国内头部大模型企业共同定义产品需求和优化方向。

　　目前，公司已累计融资近10亿元，其中约三分之一来自国资背景资本，其余主要来自产业资本及金融机构。公司超过190人，研发人员占比约80%，核心成员来自清华大学、中国科学院、浙江大学、微软亚洲研究院等机构。公司预计到年底团队规模将扩展至300人左右。

　　对于未来市场，公司预计第一代产品将在明年进入量产阶段。随着国产AI基础设施建设加速以及Token需求持续增长，3D TokenPU有望成为大模型推理时代的重要基础设施。

买球官方网站：从技术重构到价值跃迁：AI时代的移动网络与运营转型之路

A2P2协议发布智能体支付底层架构迎来关键突破！

热门标签

底层架构重构网站性能优化用户界面移动端布局流畅网站建设

买球赛的正规网站-买球赛数字科技底层性能护航者

从GPU到TokenPU：AI芯片进入3D时代