行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

智微智能机构调研纪要

2026-03-05 发现报告机构上传

智微智能与元川微投资布局

智微智能作为物联网数字化核心方案商，近年来围绕AI进行战略布局。2024年布局智算业务，2025年开发具身智能控制器并投资相关标的，2026年通过曜腾投资参股杭州元川微科技有限公司，深度布局AI推理芯片领域。

元川微技术概况

元川微专注于AI推理算力创新，聚焦边端智能场景，是国内领先的基于LPU架构的算力芯片科技公司。其核心技术包括硬数据流架构与全资源编译器，推出Mountain和River两大系列LPU+产品，满足大模型、多模态和端侧应用场景对确定性、超低时延、高算力、高能效与低成本的需求。

智微智能投资目的

通过投资元川微，智微智能旨在强化从AI训练端到推理端的优势卡位，增强在AI服务器、具身智能、边缘及端侧领域的产品能力，实现技术、生态、资源、市场上的全面协同。

LPU技术优势

技术特性：LPU专为推理设计，与GPU存在根本性差异。LPU采用大容量片上SRAM架构，数据直接集成于芯片，访问延迟远低于传统GPU；其确定性执行架构通过静态时序规划，保障稳定高吞吐量；抛弃传统“存算分离”架构，形成低时延、高吞吐、低成本、高能效的综合优势。
性能对比：根据Groq实测数据，LPU的Token生成速度达到英伟达H100的6倍，单Token成本降至H100的1/4，推理能耗降至H100的1/3。元川微自身架构验证数据与Groq接近，且通过进一步优化有望表现更优。
速度原因：LPU速度快的核心原因包括：
- 硬流水体系结构，规避冯·诺依曼体系中额外开销；
- 片上大容量SRAM及高带宽，降低访存时延，提升并行处理能力；
- 静态编译调度机制，运行时无需动态仲裁，类比高铁运行图，调度预先确定，拥塞概率极低。
成本与容量问题：
- 成本：LPU制造成本的核心决定因素是芯片裸片面积与光罩层数，而非片上组件类型。相同工艺、相同裸片面积、相同光罩层数的芯片，晶圆厂制造成本无差异。LPU凭借专用架构优势，实现同等算力所需的芯片面积远小于传统GPU，节省出来的面积可直接用于部署大容量SRAM，不会带来额外制造成本。
- 容量：Groq第一代LPU所搭载的SRAM容量适配当时主流AI模型，已无法满足当前大语言模型、具身智能与智能体场景的部署需求。新一代LPU可实现单芯片加载超大规模模型，大幅减少部署所需芯片数量，后续还可通过按需叠加算力卡的方式灵活扩展，支撑按需付费模式，降低客户前期投入与部署成本。

市场占比预测

未来推理算力占比：未来推理算力占比将达90%（训练占10%），LPU在推理领域能效比、性价比、时延等方面具有显著竞争力，将主导推理市场，而GPU可能主要聚焦训练及部分推理场景。
竞争格局：GPU、NPU属于冯诺依曼结构，仅微架构优化，底层依赖多级存储和Memory机制，算力密度受限；LPU核心优势在于非冯诺依曼硬数据流架构及全资源编译器，SRAM仅是架构环节之一，GPU、NPU集成SRAM无法复制其底层优势。

调研日期: 2026-03-05 深圳市智微智能科技股份有限公司是一家物联网数字化核心方案商,主营业务包括教育办公类、消费类、网络设备类、网络安全类、零售类以及其它电子设备产品的研发、生产、销售及服务。该公司拥有全自主研发中心和全资制造工厂,以物联网智能硬件设备解决方案为基础,全面推动5G物联网智能场景化应用。智微智能以“为客户提供智能场景下先进的硬件方案和增值服务”作为全新的企业愿景,实现个人家庭和各类场景的智能连接。未来,智微智能将继续投入大量的资源,强化垂直及细分市场能见度,为物联网、自动化、服务器及嵌入式运算等产业提供全方位智能的硬件、附加方案及增值服务,全力为客户提供以价值为导向的多样性客制化服务。该公司将运用5G、AI、大数据分析等创新的技术,提供全面的高效能硬件及软件/系统整合服务、全面性的软硬件系统整合、以客户为导向的设计服务以及先进的智能教学、全自助化新零售、智能办公、城市安全、通行与物流、大数据与云计算等多种无限可能的应用服务。一、关于参股公司杭州元川微科技有限公司的基本情况介绍深圳市智微智能科技股份有限公司近年围绕 AI 进行了一系列布局,2024 年公司布局智算业务,瞄准训练市场,订单快速增长;2025 年在具身智能领域开发大小脑控制器,并围绕具身智能对触觉传感、电机、机器人大脑模型等标的进行投资;2026 年,公司继续秉承全面拥抱 AI 的战略,积极把握 AI 从训练到推理范式转变的重大产业机遇,近日智微通过曜腾投资参股了杭州元川微科技有限公司,深度布局AI 推理芯片领域。元川微专注于 AI 推理算力创新,通过回归 AI 推理的第一性原理,聚焦边端智能场景,是国内领先的基于 LPU 架构的算力芯片科技公司;依托自研的硬数据流架构与全资源编译器等核心技术,推出了面向大模型、多模态和端侧应用场景的 Mountain(算力)、River(Agent)两大系列 LPU+产品,大幅降低推理应用的部署复杂度和总拥有成本 TCO,精准满足推理应用对确定性、超低时延、高算力、高能效与低成本的核心需求。通过对元川微进行投资,智微智能旨在通过与上游芯片原厂的深度绑定,强化自身从训练端到推理端的优势卡位,增强在 AI 服务器、具身智能、边缘及端侧领域的产品能力,以期实现双方在技术、生态、资源、市场上的全面协同。二、互动交流 1、Q:请介绍一下什么是 LPU? A:作为专为推理设计的芯片(为单一任务量身定做的芯片),LPU(Language Processing Unit,语言处理单元)与GPU存在根本性差异。GP U源于图形渲染需求,凭借强大的并行计算能力被拓展至AI领域,支撑模型训练与推理;而LPU则聚焦语言处理场景,针对文本数据的特性深度优化,在自然语言理解、文本生成等任务中实现更高效的处理——如同为“文本引擎”量身定制的专用加速器,在语义解析、对话交互等垂直场景中,展现出比通用计算单元更精准的能效比与响应速度,重新定义了语言智能的硬件实现路径。 LPU采用大容量片上SRAM架构,数据直接集成于芯片,访问延迟远低于传统GPU的“仓库-生产线”分离模式,实现“生产线旁即仓库”的极速响应;其确定性执行架构通过“静态时序”规划,将计算与通信步骤精确到时钟周期,保障稳定高吞吐量。更关键的是,LPU抛弃了传统“存算分离”的冯诺依曼架构包袱,如同专为推理定制的“F1赛车”,在低时延、高吞吐、低成本、高能效四大维度形成综合优势,成为大模型推理的“性能引擎”。 2、Q:在2月份英伟达大会上,英伟达一直在强调,Token即收入,单位Token的成本,关注最佳每瓦性能,能否分享下LPU和GPU相比,我们的Token输出速度能快多少,以及成本能下降多少,能耗能下降多少? A:根据 Groq CEO 在 2024 年 ISSCC 国际固态电路大会公布的实测数据: LPU 的 Token 生成速度达到英伟达H100的 6 倍,单 Token 成本降至 H100 的 1/4,推理能耗降至 H100 的 1/3。元川微自身架构验证数据与 Grok接近,且通过进一步架构优化,有望在能效和成本上表现更优。 3、Q:能否分享一下 LPU 速度快的原因是什么? A:LPU速度领先的核心原因,主要来自三大技术特性: ①硬流水体系结构:LPU采用纯硬件流水线架构,天然规避冯·诺依曼体系中系统调度、仲裁、多级缓存等额外开销,时延极短。 ②片上大容量SRAM及高带宽:大容量片上SRAM使模型处理长上下文时无需将数据卸载至片外存储,显著降低访存时延;高带宽提升单次Token并行处理能力,并增强算子融合效率——原需3个算子完成的计算可融合为2至2.5个算子执行。 ③ 静态编译调度机制:所有调度工作在编译期静态完成,运行时无需动态仲裁。类比高铁运行图,调度预先确定,拥塞概率极低;传统GPU动态调度犹如高速公路自由行驶,个体随机性在数学上必然导致系统性拥塞。 4、Q:根据 Groq 的设计,LPU 跨过了内存墙,使用了大量 SRAM,一方面 SRAM 的价格比较昂贵,成本问题如何解决?另一方面 S RAM 的容量较低,能否承载超大模型推理? A:关于 LPU 采用大容量 SRAM 带来的成本与超大模型承载问题,我们从架构本质和产品迭代两个层面给出清晰解答。成本方面,芯片制造成本的核心决定因素是芯片裸片面积与光罩层数,而非片上组件类型,以相同工艺、相同裸片面积、相同光罩层数的芯片为例,晶圆厂的制造成本并无差异,虽然 SRAM 单比特面积大于 DRAM,但 LPU 凭借专用架构优势,实现同等算力所需的芯片面积远小于传统GPU,节省出来的面积可直接用于部署大容量 SRAM,在总芯片面积不变的前提下,SRAM 的扩容由计算单元的面积红利支撑,不会带来额外制造成本,而 GPU 受限于通用架构,即便叠加片上 SRAM 也无法复制 LPU 的系统性优势,二者存在代际级的技术差异。容量方面,Groq 第一代 LPU 所搭载的 SRAM 容量,是适配当时主流 AI 模型的产物,已无法满足当前大语言模型、具身智能与智能体场景的部署需求,这属于产品代际的定位差异,并非 LPU 架构的固有缺陷,针对超大模型推理,新一代 LPU 可实现单芯片加载超大规模模型,大幅减少部署所需芯片数量,后续还能通过按需叠加算力卡的方式灵活扩展,支撑按需付费的商业化模式,显著降低客户的前期投入与部署成本。 5、Q:展望 2027-2028 年,LPU 与 GPU 的市场占比终局关系如何? A:未来推理算力占比将达 90%(训练占 10%),LPU在推理领域能效比、性价比、时延等方面具有显著竞争力,将主导推理市场,而GPU 可能主要聚焦训练及部分推理场景。 6、Q:若 GPU、NPU 集成 3D SRAM 吸收 LPU 优点,后续竞争格局如何? A:GPU、NPU 属于冯诺依曼结构,仅微架构优化,底层依赖多级存储和 Memory 机制,算力密度受限;LPU 核心优势在于非冯诺依曼硬数据流架构及全资源编译器,SRAM仅是架构环节之一,GPU、NPU 集成 SRAM 无法复制其底层优势。

点击免费查看完整报告

你可能感兴趣