您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [瑞芯微电子]:让设备真正“听懂、看懂、思考”—— AIoT 2.0 重塑智能硬件 - 发现报告

让设备真正“听懂、看懂、思考”—— AIoT 2.0 重塑智能硬件

信息技术 2026-05-06 - 瑞芯微电子 王擦
报告封面

让设备真正“听懂、看懂、思考” ——AIoT 2.0重塑智能硬件 智能设备的重塑 大模型从云到端 边端侧部署的必要性 边端侧模型能力及产品需求 Agent能力 隐私安全(Privacy)敏感数据(视频、音频)“不出端侧”,建立用户信任。 融合感知理解、自主规划、工具调用、多步执行本地知识库(RAG)、习惯、记忆 大模型泛化能力 实时性(Latency)毫秒级响应,满足工业控制、自然交互等场景需求。 自主分析异常,解决各类边界问题;视频分析、工业检测、语音处理等应用 Token带宽成本(BandwidthCost)端云结合产品,仅传输端侧过滤后需深度思考数据;全端侧产品,无持续云端Token需求 小参数大模型类型广泛 ASR、TTS、翻译、视觉编码、OCR、多模态、3D深度估计等各类模型层出不穷 可靠性(Reliability)无网弱网可用,不依赖网络,稳定可靠 小参数大模型能力迅速变强 Qwen 3.5-4B>Qwen3-VL-8B > Qwen2.5-VL-14B 大模型端侧部署的挑战 端侧大模型运行效果和生态挑战 大模型性能需求挑战 模型精度挑战->量化方案支持模型生态挑战->主流模型支持和厂商合作 大模型运行的超大带宽需求Transformer架构/Attention机制支持 端侧设备的功耗挑战 端侧设备可商业化挑战 商业化性价比--晶圆面积限制->芯片性能商业化性价比--外挂DDR容量及成本 AI算力功耗->高算力带来的功耗DRAM功耗->超大访存带来功耗 Transformer时代的“内存墙”危机 算术强度的困境与带宽需求(以7B模型INT4量化为例) 传统SoC的物理极限与能耗挑战 算力特性转变:从计算密集到内存密集 物理瓶颈与性能受限(带宽受限) 推理速度慢(~10Tokens/s),体验卡顿,“智能”变“智障”。 计算密集型(Compute-Intensive) 内存密集型(Memory-Intensive) 能耗噩梦(数据搬运代价) 算力要求高带宽要求相对较低 Decode阶段逐个生成Token,每次需加载全部权重(算术强度低)。 片外数据搬运能耗远高于计算,导致设备发热、降频。 业内首颗3D堆叠端侧AI芯片—突破DRAM带宽瓶颈 传统封装 面对“内存墙”和“能耗墙”,RK182X采用革命性3D堆叠技术,将DRAM晶圆直接堆叠在NPU逻辑晶圆之上,带来物理层面的降维打击。 高密度TSV/Hybrid Bonding(微米级互联) 带宽数量级提升 极致的推理性能 突破性的能效比 传输距离极短,访存功耗低单位比特能耗(pJ/bit)量级降低同样电池下运行更久 实现远高于普通SoC的推理速度跑3B模型推理输出超100TPS 建立数万个微米级垂直数据通道。RK182X等效带宽可达数百GB/s(相比传统LPDDR4/5的几十GB/s)彻底消除3B+大模型带宽瓶颈。 内置DRAM 无需外挂DDR布板简单面积小 数百GB vs数十GB RK182X:专为端侧大模型设计的AI推理芯片 LLM性能实测对比–体验升级,3B大模型输出破百! 能耗对比—RK182X vs O**n NX 8GB 瑞芯微AIoT 2.0产品生态 从“听清”到“听懂” 期待的人机交互 AIoT人机交互(机器感强) 怎么说都懂,理解意图连续对话,像朋友一样聊天主动建议,自动完成复杂任务链有温度,个性化的回应 精准语音识别(不理解潜台词)关键词唤醒(每次对话都“失忆”)简单指令执行(固定操作)基础问答(标准回复) 从“听清”到“听懂”—AIoT 2.0给语音交互装上大脑 体验升级—智能助手 智能家居:从“遥控器”到“私人管家” 智能办公:从“录音笔”到“专属秘书” 自动管理设备,了解家庭成员习惯,老幼报告生成 自动完成:翻译、总结、待办提醒 智能车载:从“导航仪”到“副驾伙伴” 智能机器人:从“遥控”到“自主助理” 成员识别,自然交互陪伴,基于时间地点自主规划任务 场景识别情绪分析,基于记忆个性化交互,自主完成任务 体验升级—GUI Agent Demo 从“看清”到“看懂”—AIoT视觉 AIoT视觉优势 看得清:高清画质,超低照度认得准:精准识别“人、车、物”等目标反应快:基于固定规则触发告警 AIoT视觉局限性 没有环境、行为、事件分析能力 容易误报:规则死板,环境干扰 检索效率低:依赖关键词 从“看清”到“看懂”—AIoT 2.0给视觉装上大脑 AIoT 2.0视频分析—从被动记录到主动预警、分析总结 老幼看护预警日报周报生成自动时光缩影 规范操作预警劳保用品穿戴 事故自动发现拥堵原因分析 体验升级—事件检索“一键即达” RK182X应用方向 瑞芯微AIoT 2.0新战略—最佳端侧AI芯片方案 主芯片+协处理器,成为瑞芯微并行研发、快速迭代的双轨重要资源线 双轨研发策略 主控+协处理器 (高中低端)主控聚焦通用任务协处理器聚焦AI算力和带宽灵活配置->最高性价比 主控+协处理器:解耦算力与控制 传统硬件迭代痛点:升级主控(AP)是“痛苦”的 RK182X “协处理器”商业模式:完美解决痛点 研发成本高 主控(Host) 协处理器(CP) 重新设计PCB、调试BSP、重新认证 负责:OS、外设控制、网络连接例如:RK3568 / MCU 负责:核心“思考”、大模型推理例如:RK182X(M.2模组) 生命周期错配 设备周期长(5-10年)vs AI迭代快(几个月) 战略优势 成本优势 算力解耦 无缝升级 可选配不同算力的模组;下一代AI模型出现时,仅升级协处理器模块,无需整机重设计。 专为端侧设计,内嵌DRAM内存;无需外挂DRAM,BOM成本低。 不改动原有主板,通过USB/PCIe外挂M.2模组,瞬间赋能AIoT2.0。 RK1828典型LLM/VLM性能 RK182X典型ViT/CNN性能 模型精度保持 RK182X全面的模型支持 •SigLIP 1/2•DINOv2/v3•EVA02•CLIP ViT-B/L •Qwen 2.5 0.5B / 1.5B / 3B / 7B•Qwen 3 0.6B / 1.7B / 4B / 8B•GLM Edge•Hunyuan-MT1.5•Youtu-LLM 大语言模型(LLM) 视觉类ViT/CNN 文本理解、生成、机器翻译 图像分类、分割、目标检测、深度估计 CNN类 •YoloV5/V6/V8/ World/26•MobileNet•ResNet •SenseVoice•Whisper 语音模型 ASR、TTS •Qwen2.5VL 3B / 7B•Qwen3VL 2B / 4B•GELab-Zero•InternVL3 2B/4B•MiniCPM-V-4•FastVLM 1.6B•MiMo-VL-7B-RL•Janus-Pro•Qwen2.5-Omni 多模态/视觉语言模型(VLM) 向量嵌入与重排序(Embedding &Reranker) Embedding (嵌入) 图像理解、视频分析OCR、视觉问答 •M3E small•Albert-base-v2 RAG(检索增强生成)核心组件 Reranker (重排序) •Qwen3-0.6B-Reranker•Qwen3-4B-Reranker RK182X模组 NPU加速卡,搭配主控使用,无需外挂DDRSO-DIMM接口(PCIe2x1,USB3.0),MPM.2 2280接口(PCIe2x1),ES RKNN3 SDK组成及开发 RKNN3 SDK开发路径 软硬件验证(跑ModelZoo模型)->模型转换->精度仿真->板端验证->部署优化 模型量化,模型转换,精度分析,模拟器RKNN3 Toolkit (PC Tool) 用户层API库(Python, C/C++, OpenAI接口)RKNN3 Runtime 模型仓库:CNN/ViT/LLM/VLM...Model Zoo 感谢观看 地址中国福建福州鼓楼区铜盘路软件园A区18号楼邮箱service@rock-chips.com邮编350003电话86-591-83991906传真86-591-83951833