演讲⼈:李⼤海⾯壁智能CEO&联合创始⼈ ⾼效⼤模型就是⾯壁智能 更快速度,更低成本提供最优智能实现⽅案 ⾼效是⼀种惯性,⾯壁是⼤模型前沿持续引领者 领跑智能体 超前⼊局⼤模型 ⾼效,来⾃对 2018年以来⻅证⼤模型规模法则(Scaling Law) OpenAI引领验证,在⼤数据+⼤算⼒⽀持下,越⼤的模型可以产⽣越强的智能⽔平,即规模法则 2018年以来⻅证⼤模型规模法则(Scaling Law) OpenAI引领验证,在⼤数据+⼤算⼒⽀持下,越⼤的模型可以产⽣越强的智能⽔平,即规模法则 半导体发展趋势:摩尔定律 半导体⾏业在摩尔定律指引下,持续改进芯⽚制造⼯艺、提升芯⽚制程,核⼼是提升芯⽚电路密度实现了计算设备⼩型化 ⾼效⼤模型第⼀性原理 知识密度= 模型能⼒ / 模型参数参与计算的 ⼤模型数据驱动技术⽅向⼤致确定模型架构-算法-数据技术⽅案仍⾼速迭代需持续改进模型制程,极致提升知识密度 ⼤模型发展趋势 随数据-算⼒-算法协同发展,模型知识密度持续增强:20年GPT-3175B能⼒24年2B参数量即可达到 过去四年⼤模型知识密度平均每8个⽉翻⼀倍 MiniCPM 2.4B为⾯壁智能团队2024年2⽉发布语⾔⼤模型 知识密度持续增强:⼤模型时代的“⾯壁定律” 芯⽚电路密度每18个⽉提⾼1倍 模型知识密度每8个⽉提⾼1倍 摩尔定律半导体发展趋势 ⾯壁定律⼤模型发展趋势 随数据-算⼒-算法协同发展,模型知识密度持续增强,2020年GPT-3 175B能⼒到2024年MiniCPM 2.4B模型即可达到,知识密度提⾼约86倍! 集成电路上可容纳的晶体管数⽬,约每隔两年增加⼀倍 芯⽚制程带来终端算⼒持续增强,模型制程带来模型知识密度持续增强,两者交汇揭示端侧智能巨⼤潜⼒ ⼈⼯智能科学化:推动⼤模型⾼质量发展 科学化历程将引领⾼质量发展,数据驱动的⼤模型技术⽅向⼤致确定,架构-算法-数据的技术路线⾼ 速迭代,需要围绕如何极致提升“知识密度”,探索⼤模型科学化建设⽅案 ⼤模型科学化问题 科学化引领⾼质量发展 ⼈⼯智能科学化-成⻓⾼效:模型⻛洞技术 构建模型⻛洞,在⼩模型⾼效寻找最优数据和超参配置并外推⾄⼤模型,让模型成⻓摆脱“炼丹”窘境 ⼤模型科学化结晶 ⾯壁模型⻛洞探寻⼤模型⾼效成⻓规律,摆脱“炼丹”窘境 更⾼知识密度带来更⾼效模型 同等参数更⾼性能,同等性能参数更⼩ 通过科学提升训练⽅法与数据质量,2024年2⽉发布MiniCPM 2.4B以⼩博⼤、越级超越Mistral-7B,Llama2-13B等明星模型 旗舰端侧⼤模型系列 极致以⼩博⼤+⾼效低成本 | GPT-4V级最强端侧多模态 | 国际开源明星 MiniCPM-V 多模态模型 MiniCPM 基座模型 ⻓⽂本与MoE模型 实时视频、多图联合理解,⾸次上端9 倍像素更清晰,难图⻓图⻓⽂本精准识别全⾯ GPT-4V 级最强端侧多模态 + OCR SOTA 极致以⼩博⼤ + 极致⾼效低成本2.4B+1.2B+1.2B极速版,适配更多场景新⼀代⾼效低能耗架构,2.8倍迅疾响应 最⼩ 128K ⻓⽂本模型⾼性能 MoE 模型 全球技术社区好评如潮 成为端侧AI性能标尺 全⽹下载146万+GitHub Star15k+ MiniCPM以如此震撼的⼩尺⼨,做出了极具深度的⼯作。 来⾃OpenBMB团队的极具创意的⼯作…… 看来,我们似乎远没有穷尽⼤语⾔模型训练的可能性。 旗舰端侧基座⼤模型⾯壁 MiniCPM-2B 极致⾼效低成本 极致以⼩博⼤ 同等性能参数更⼩,同等参数性能超强 上千次「模型沙盒」实验,1元=1,700,000 tokens* 超越 Mistral-7B来⾃「欧洲OpenAI」性能标杆之作 极致压缩量化版压缩75%,性能⼏⽆损耗 多AI硬件适配AMD, Intel, ⾼通, MTK等已适配 ⽀持主流 CPU 推理1元=1,700,000 tokens 2B 量级整体领先,7B 量级多项超越相较⾕歌 Gemma 消费级显卡玩转⼤模型 越级7B, 13B量级模型⽐肩 ChatGLM3-6B 等 1台机器持续训练,1张显卡⾼效微调 图中模型评测均采⽤ UltraEval评测框架。选择常⽤的评测任务:C-Eval,CMMLU,BBH,MMLU,HumanEval,MBPP,GSM8K,MATH,HellaSwag,BoolQ,PIQA,WinoGrande,ARC-e,ARC-c,从不同的能⼒维度检验模型的能⼒,最终取所有任务的均值作为最终结果进⾏展示。 以搭载骁⻰ 855 芯⽚的智能⼿机为例,成本 600 元⼈⺠币,⼀共运⾏ 5 年,每秒 7.5 tokens,170 万 tokens 的推理成本仅为1元⼈⺠币(GPT-4 的推理成本为 1 ⼈⺠币 4700token)。当前⼿机推理未曾深⼊进⾏优化,⽽GPU加速已采⽤各种采样加速进⾏优化,未来⼿机推理成本可进⼀步降低 MiniCPM-Llama3-V 2.58B GPT-4V 级端侧多模态⼩钢炮 最强端侧多模态综合性能 OCR 能⼒ SOTA ! 8B量级,超过多模态巨⽆霸GPT-4V、Gemini Pro 等 9倍像素更清晰,⻓图难图⻓⽂本精准识别 ⾯壁⾃研⾼清图像解码技术突破传统20w像素⼩图困境 OCRBench SOTA,越级超越 GPT-4o、GPT-4V、Gemini Pro 等标杆模型幻觉能⼒超GPT-4V (Object HalBench ),现实世界空间理解能⼒超 GPT-4V, Gemini Pro (RealWorldQA) 从 448x448 分辨率,⻜跃⾄ 1344 * 1344 分辨率⾼清解析,甚⾄可达到 1:9 极限宽⾼⽐(448 * 4032) 模型雷达图显示 MiniCPM-Llama3-V 2.5 综合能⼒⽔平全⾯优秀 端侧⾼效运⾏ ⾸次端侧系统级多模态加速 图像编码加速快150倍 消费级显卡轻松推理4070 实时视频理解 实时看⻅与理解真实世界开启具身智能等 AGI ⽆限可能!! 帮我看看这里是什么样子? 瞧,她正要画些什么? 太长不看,这段视频讲了什么? 北京的早高峰是什么体验? 流畅的多图联合理解 多张图⽚⼀⼝⽓处理⼀直识图⼀直爽" 超聪明的复杂推理能⼒难图梗图不在话下!!! MiniCPM-V 2.6 微表情捕捉分析⼈类⼼理 端侧⽅⼨之地⼤模型技术极限竞技场 ⾸创:180万像素⾼清图像解码技术 180万1:9极限宽⾼⽐ 180万任意⻓宽⽐⾼清图像 ⾼清图⽚,⾼效编码,任意宽⾼⽐图像⽆损识别 从448x448像素,到180万⾼清⼤图,甚⾄1:9极限宽⾼⽐(448 * 4032) ⾼清图像⾼效编码背后的独家技术:LLaVA-UHD 模块化视觉编码 将原始分辨率图像划分为可变⼤⼩切⽚⽆需像素填充或图像变形实现对原始分辨率的完全适应性 视觉压缩模块 使⽤共享感知器重采样层压缩图像切⽚的视觉 tokens不管分辨率多少 token 数量都可负担,计算量更低⽀持任意宽⾼⽐图像编码 空间修饰⽅法 使⽤⾃然语⾔符号的简单模式有效告知图像切⽚的相对位置 统⼀⾼清视觉架构 同时⽀撑单图、多图、视频理解能⼒,实现⾼效能⼒迁移和知识共享 多语⾔:跨模态跨语⾔泛化技术 解决中⽂领域缺乏⾼质量、⼤规模多模态数据的挑战 基础能⼒跨语⾔泛化 基于基座模型中英双语能⼒仅通过英⽂通⽤域图⽂对数据进⾏预训练实现多模态基础能⼒从英⽂到中⽂的跨语⾔泛化 中⽂多模态能⼒⾼效激发 VisCPM:仅通过英⽂多模态数据预训练,泛化实现优秀中⽂多模态能⼒ 少量⾼质量中⽂指令微调数据⾼效激发中⽂多模态基础能⼒ 端侧算⼒分布离散、总量巨⼤亟待激活,端侧 AI 市场势能强劲 ⾯壁⼩钢炮旗舰端侧模型 把⼤模型放到离⽤户最近的地⽅ THANKS 构建世界最好的端侧⼤模型