行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

提升大模型知识密度，做高效的终端智能

信息技术 2024-10-18 李大海 Aicon four_king

面壁智能CEO李大海演讲核心内容总结

高效大模型与面壁智能

高效大模型理念：以更快速度、更低成本提供最优智能实现方案，强调“高效”是一种惯性，面壁智能是持续引领大模型前沿的领导者。
领跑智能体：超前入局大模型领域，持续推动技术发展。

大模型规模法则与半导体发展趋势

大模型规模法则（Scaling Law）：自2018年以来，OpenAI引领验证，大数据+大算力支持下，越大的模型越能产生越强的智能水平。
半导体发展趋势：类比摩尔定律，半导体行业通过提升芯片电路密度实现计算设备小型化。
高效大模型第一性原理：知识密度 = 模型能力 / 模型参数参与计算的量，大模型数据驱动技术方向仍高速迭代，需持续改进模型制程，极致提升知识密度。

大模型发展趋势与面壁定律

大模型知识密度持续增强：2020年GPT-3 175B能力到2024年MiniCPM 2.4B模型即可达到，知识密度提高约86倍。
面壁定律：芯片电路密度每18个月提高1倍，模型知识密度每8个月提高1倍，两者交汇揭示端侧智能巨大潜力。

人工智能科学化与高质量发展

科学化历程：推动大模型高质量发展，围绕如何极致提升“知识密度”，探索大模型科学化建设方案。
大模型科学化问题：科学化引领高质量发展，重点在于模型风洞技术，构建模型风洞，让模型成长摆脱“炼丹”窘境。

面壁模型风洞与高效成长

面壁模型风洞：探寻大模型高效成长规律，摆脱“炼丹”窘境，更高知识密度带来更高效模型。
成果展示：通过科学提升训练方法与数据质量，2024年2月发布的MiniCPM 2.4B以小博大、越级超越Mistral-7B、Llama2-13B等明星模型。

旗舰端侧大模型系列

MiniCPM-V 多模态模型：极致以小博大+高效低成本，GPT-4V级最强端侧多模态，国际开源明星。
- 长文本与MoE模型：实时视频、多图联合理解，首次上端9倍像素更清晰，难图长文本精准识别全方面GPT-4V级最强端侧多模态+OCR SOTA。
- 极致以小博大+极致高效低成本：2.4B+1.2B+1.2B极速版，适配更多场景，新一代高效低能耗架构，2.8倍迅疾响应。
- 最小128K长文本模型高性能MoE模型：全球技术社区好评如潮，成为端侧AI性能标尺。
旗舰端侧基座大模型面壁MiniCPM-2B：极致高效低成本，极致以小博大。
- 性能超越：同等性能参数更小，同等参数性能超强，上千次“模型沙盒”实验，1元=1,700,000 tokens*。
- 多AI硬件适配：AMD、Intel、高通、MTK等已适配，支持主流CPU推理。
- 消费级显卡玩转大模型：越级7B、13B量级模型比肩ChatGLM3-6B等。
MiniCPM-Llama3-V 2.58B：GPT-4V级端侧多模态小钢炮，最强端侧多模态综合性能。
- OCR能力SOTA：9倍像素更清晰，长图难图长文本精准识别，面壁自研高清图像解码技术突破传统20w像素小图困境。
- OCRBench SOTA：越级超越GPT-4o、GPT-4V、Gemini Pro等标杆模型。
- 端侧高效运行：首次端侧系统级多模态加速，图像编码加速快150倍，消费级显卡轻松推理4070。
- 实时视频理解：实时看见与理解真实世界，开启具身智能等AGI无限可能。

端侧方寸之地大模型技术极限竞技场

首创：180万像素高清图像解码技术：180万1:9极限宽高比，180万任意长宽比高清图像，高清图像高效编码，任意宽高比图像无损识别。
高清图像高效编码背后的独家技术：LLaVA-UHD：模块化视觉编码，视觉压缩模块，空间修饰方法，统一高清视觉架构。
多语言：跨模态跨语言泛化技术：解决中文领域缺乏高质量、大规模多模态数据的挑战，基础能力跨语言泛化，中文多模态能力高效激发。

端侧算力分布离散、总量巨大亟待激活

端侧AI市场势能强劲：构建世界最好的端侧大模型。

演讲⼈：李⼤海⾯壁智能CEO&联合创始⼈⾼效⼤模型就是⾯壁智能更快速度，更低成本提供最优智能实现⽅案⾼效是⼀种惯性，⾯壁是⼤模型前沿持续引领者领跑智能体超前⼊局⼤模型⾼效，来⾃对 2018年以来⻅证⼤模型规模法则（Scaling Law） OpenAI引领验证，在⼤数据+⼤算⼒⽀持下，越⼤的模型可以产⽣越强的智能⽔平，即规模法则 2018年以来⻅证⼤模型规模法则（Scaling Law） OpenAI引领验证，在⼤数据+⼤算⼒⽀持下，越⼤的模型可以产⽣越强的智能⽔平，即规模法则半导体发展趋势：摩尔定律半导体⾏业在摩尔定律指引下，持续改进芯⽚制造⼯艺、提升芯⽚制程，核⼼是提升芯⽚电路密度实现了计算设备⼩型化⾼效⼤模型第⼀性原理知识密度= 模型能⼒ / 模型参数参与计算的⼤模型数据驱动技术⽅向⼤致确定模型架构-算法-数据技术⽅案仍⾼速迭代需持续改进模型制程，极致提升知识密度⼤模型发展趋势随数据-算⼒-算法协同发展，模型知识密度持续增强：20年GPT-3175B能⼒24年2B参数量即可达到过去四年⼤模型知识密度平均每8个⽉翻⼀倍 MiniCPM 2.4B为⾯壁智能团队2024年2⽉发布语⾔⼤模型知识密度持续增强：⼤模型时代的“⾯壁定律” 芯⽚电路密度每18个⽉提⾼1倍模型知识密度每8个⽉提⾼1倍摩尔定律半导体发展趋势⾯壁定律⼤模型发展趋势随数据-算⼒-算法协同发展，模型知识密度持续增强，2020年GPT-3 175B能⼒到2024年MiniCPM 2.4B模型即可达到，知识密度提⾼约86倍！集成电路上可容纳的晶体管数⽬，约每隔两年增加⼀倍芯⽚制程带来终端算⼒持续增强，模型制程带来模型知识密度持续增强，两者交汇揭示端侧智能巨⼤潜⼒⼈⼯智能科学化：推动⼤模型⾼质量发展科学化历程将引领⾼质量发展，数据驱动的⼤模型技术⽅向⼤致确定，架构-算法-数据的技术路线⾼速迭代，需要围绕如何极致提升“知识密度”，探索⼤模型科学化建设⽅案⼤模型科学化问题科学化引领⾼质量发展⼈⼯智能科学化-成⻓⾼效：模型⻛洞技术构建模型⻛洞，在⼩模型⾼效寻找最优数据和超参配置并外推⾄⼤模型，让模型成⻓摆脱“炼丹”窘境⼤模型科学化结晶⾯壁模型⻛洞探寻⼤模型⾼效成⻓规律，摆脱“炼丹”窘境更⾼知识密度带来更⾼效模型同等参数更⾼性能，同等性能参数更⼩通过科学提升训练⽅法与数据质量，2024年2⽉发布MiniCPM 2.4B以⼩博⼤、越级超越Mistral-7B，Llama2-13B等明星模型旗舰端侧⼤模型系列极致以⼩博⼤+⾼效低成本 | GPT-4V级最强端侧多模态 | 国际开源明星 MiniCPM-V 多模态模型 MiniCPM 基座模型⻓⽂本与MoE模型实时视频、多图联合理解，⾸次上端9 倍像素更清晰，难图⻓图⻓⽂本精准识别全⾯ GPT-4V 级最强端侧多模态 + OCR SOTA 极致以⼩博⼤ + 极致⾼效低成本2.4B+1.2B+1.2B极速版，适配更多场景新⼀代⾼效低能耗架构，2.8倍迅疾响应最⼩ 128K ⻓⽂本模型⾼性能 MoE 模型全球技术社区好评如潮成为端侧AI性能标尺全⽹下载146万+GitHub Star15k+ MiniCPM以如此震撼的⼩尺⼨，做出了极具深度的⼯作。来⾃OpenBMB团队的极具创意的⼯作…… 看来，我们似乎远没有穷尽⼤语⾔模型训练的可能性。旗舰端侧基座⼤模型⾯壁 MiniCPM-2B 极致⾼效低成本极致以⼩博⼤同等性能参数更⼩，同等参数性能超强上千次「模型沙盒」实验，1元=1,700,000 tokens* 超越 Mistral-7B来⾃「欧洲OpenAI」性能标杆之作极致压缩量化版压缩75%,性能⼏⽆损耗多AI硬件适配AMD, Intel, ⾼通, MTK等已适配⽀持主流 CPU 推理1元=1,700,000 tokens 2B 量级整体领先，7B 量级多项超越相较⾕歌 Gemma 消费级显卡玩转⼤模型越级7B, 13B量级模型⽐肩 ChatGLM3-6B 等 1台机器持续训练，1张显卡⾼效微调图中模型评测均采⽤ UltraEval评测框架。选择常⽤的评测任务：C-Eval，CMMLU，BBH，MMLU，HumanEval，MBPP，GSM8K，MATH，HellaSwag，BoolQ，PIQA，WinoGrande，ARC-e，ARC-c，从不同的能⼒维度检验模型的能⼒，最终取所有任务的均值作为最终结果进⾏展示。以搭载骁⻰ 855 芯⽚的智能⼿机为例，成本 600 元⼈⺠币，⼀共运⾏ 5 年，每秒 7.5 tokens，170 万 tokens 的推理成本仅为1元⼈⺠币（GPT-4 的推理成本为 1 ⼈⺠币 4700token）。当前⼿机推理未曾深⼊进⾏优化，⽽GPU加速已采⽤各种采样加速进⾏优化，未来⼿机推理成本可进⼀步降低 MiniCPM-Llama3-V 2.58B GPT-4V 级端侧多模态⼩钢炮最强端侧多模态综合性能 OCR 能⼒ SOTA ！ 8B量级，超过多模态巨⽆霸GPT-4V、Gemini Pro 等 9倍像素更清晰，⻓图难图⻓⽂本精准识别⾯壁⾃研⾼清图像解码技术突破传统20w像素⼩图困境 OCRBench SOTA，越级超越 GPT-4o、GPT-4V、Gemini Pro 等标杆模型幻觉能⼒超GPT-4V (Object HalBench ),现实世界空间理解能⼒超 GPT-4V, Gemini Pro (RealWorldQA) 从 448x448 分辨率，⻜跃⾄ 1344 * 1344 分辨率⾼清解析，甚⾄可达到 1:9 极限宽⾼⽐（448 * 4032）模型雷达图显示 MiniCPM-Llama3-V 2.5 综合能⼒⽔平全⾯优秀端侧⾼效运⾏⾸次端侧系统级多模态加速图像编码加速快150倍消费级显卡轻松推理4070 实时视频理解实时看⻅与理解真实世界开启具身智能等 AGI ⽆限可能!! 帮我看看这里是什么样子？瞧，她正要画些什么？太长不看，这段视频讲了什么？北京的早高峰是什么体验？流畅的多图联合理解多张图⽚⼀⼝⽓处理⼀直识图⼀直爽" 超聪明的复杂推理能⼒难图梗图不在话下!!! MiniCPM-V 2.6 微表情捕捉分析⼈类⼼理端侧⽅⼨之地⼤模型技术极限竞技场⾸创：180万像素⾼清图像解码技术 180万1:9极限宽⾼⽐ 180万任意⻓宽⽐⾼清图像⾼清图⽚，⾼效编码，任意宽⾼⽐图像⽆损识别从448x448像素，到180万⾼清⼤图，甚⾄1:9极限宽⾼⽐（448 * 4032）⾼清图像⾼效编码背后的独家技术：LLaVA-UHD 模块化视觉编码将原始分辨率图像划分为可变⼤⼩切⽚⽆需像素填充或图像变形实现对原始分辨率的完全适应性视觉压缩模块使⽤共享感知器重采样层压缩图像切⽚的视觉 tokens不管分辨率多少 token 数量都可负担，计算量更低⽀持任意宽⾼⽐图像编码空间修饰⽅法使⽤⾃然语⾔符号的简单模式有效告知图像切⽚的相对位置统⼀⾼清视觉架构同时⽀撑单图、多图、视频理解能⼒，实现⾼效能⼒迁移和知识共享多语⾔：跨模态跨语⾔泛化技术解决中⽂领域缺乏⾼质量、⼤规模多模态数据的挑战基础能⼒跨语⾔泛化基于基座模型中英双语能⼒仅通过英⽂通⽤域图⽂对数据进⾏预训练实现多模态基础能⼒从英⽂到中⽂的跨语⾔泛化中⽂多模态能⼒⾼效激发 VisCPM：仅通过英⽂多模态数据预训练，泛化实现优秀中⽂多模态能⼒少量⾼质量中⽂指令微调数据⾼效激发中⽂多模态基础能⼒端侧算⼒分布离散、总量巨⼤亟待激活，端侧 AI 市场势能强劲⾯壁⼩钢炮旗舰端侧模型把⼤模型放到离⽤户最近的地⽅ THANKS 构建世界最好的端侧⼤模型

点击免费查看完整报告