行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

中国大模型季度监测报告（2023年第四季度）

信息技术 2024-04-11 - 极客传媒有梦想的人不睡觉

报告摘要

大模型市场加速发展

政策支持：政策全面关注鼓励大模型发展，涉及交通、文旅、地震等多个领域。
投融资动态：2023年第四季度大模型领域投融资规模显著增长，融资事件数量虽有所下降，但融资总额大幅攀升，应用层公司基于大模型技术构建各类应用，吸引大量资金投入。

行业应用与挑战

行业大模型涌现：大模型在游戏、电商、社交、娱乐、传媒、教育、汽车、金融、能源、制造、医疗等行业均有应用，展示了强大的行业适应性。
挑战与机遇：随着模型能力的提升，商业模式和AI安全性成为热议话题，同时市场对于更高效、定制化的大模型需求增加。

大模型技术迭代与开源

技术升级：通用大模型进入迭代和开源阶段，各公司持续更新模型，重点转向能力提升而非参数数量。
开源趋势：随着零一万物等项目的开源，大模型厂商完成交卷，转向内部优化和能力增强。

商业化与挑战

挑战与机遇并存：大模型技术面临商业化盈利模式的验证，现有盈利场景集中在提升原有业务效率。
市场竞争：市场存在同质化问题，需持续创新以避免竞争压力。
AI安全问题：AI安全成为不可忽视的挑战，包括内容安全、数据安全、幻觉安全和隐私保护等。

视频与音频生成技术进展

视频生成技术：海外和国内均有创新，涵盖娱乐、电商、广告等领域，技术能力逐步提升。
音频生成：音频生成技术也取得进展，覆盖音乐、语音合成、音频后期等场景。

AI应用挑战赛

行业应用竞赛：大模型应用挑战赛正式拉开帷幕，推动大模型技术在不同领域的深入应用和创新。

美图设计室与视频生成工具

美图设计室：一站式电商物料设计工具，提高电商物料设计效率。
视频生成工具：国内外均有创新，覆盖娱乐、电商、广告等多个场景，技术能力不断提升。

总结

2023年第四季度，大模型领域展现出强劲的增长势头，政策支持、投融资活跃、行业应用深化、技术迭代和开源、以及商业化挑战成为关键议题。随着大模型技术的不断进步和应用领域的扩展，市场对于创新解决方案和安全机制的需求日益增长，同时也面临着商业化盈利模式的验证和AI安全的挑战。未来，大模型技术将持续革新，推动各行业数字化转型，但在商业化路径和安全策略方面仍有待深入探索和实践。

2023年第4季度 InfoQ极客传媒 CONTENT目录 01大模型市场进一步加速 02大模型应用挑战赛正式拉开序幕 03大模型文生图能力洞察大模型市场进一步加速从工信到其他部门，从中央到地方，政策全面关注鼓励大模型发展第四季度融资规模暴增，电商、社交场景应用集中吸金 2023年第四季度，虽然融资事件数量从第三季度的28件回落至17件，但融资金额到达46.2亿元人民币，是第三季度的6.4亿元人民币融资规模的6.21倍。行业大模型不断涌现，通用大模型进入升级和开源阶段通用大模型专注迭代，大模型赛道入场券所剩无几截至2023年12月，伴随着零一万物Yi-6B和34B的开源，大模型厂商已全部交卷完成，并完成了平均3轮更新。并且宣传重点从模型参数，转向模型更新下的能力提升。头部企业大模型发展路径仍然诸多争议此外，本轮大模型带来的能力提升，也进一步激化了关于商业模式和AI安全的讨过论。第四季度中，国外OPenAI的内斗风波，国内知名投资人与行业从业者各自多轮发声。国内部分讨论朱味虎大模型本身创业不太适合创业者，创业者更应该去寻找在垂直应用场景落地的机会。但现在真要找垂直应用场景还不是那么容易。为什么？因为今天的大模型还没有那么智能。它在很多垂直场景上，只能让人觉得好玩，还达不到商业化质量，这时候真的让人去喝水，可能喝一两口觉得试试看，但是要人持续地喝下去，还需要等大模型再持续的进化。周鸿祎在大模型发展这件事上，我是坚定的发展派。原因有两点。第一，大模型的发展水平还远没有到可以威胁人类的程度，现在担忧为时尚早。大模型是有史以来最强有力的生产工具，未来一定会重型生产生活，不发展才是最大的不安全，第三，任何新技术帮有无法预知的安全隐患。谈安全不是为了制约发展。我们要把不安全的因素一一列出来，针对每个问题寻找解决方案让人们更安全更放心地拥抱新技术。做安全的目的是为发展保驾护航，安全是大模型发展的底线，也是未来大模型的核心竞争力。大模型应用挑战赛正式拉开序幕单模态内部应用探索，多模态转换仍找寻商业场景大模型应用产品开始规模化涌现，走超200款产品面世文本生成：模型探索长文本的记忆能力，产品开始整合工作流在底层模型层面，文本生成类产品逐渐开始探索长上下文能力，逐渐从2-4K拓展到100K以上。文本生成类产品，从ChatGPT为代表的技术突破开始，经历了去年一年的摸索，现阶段的产品已经开始整合工作流。月之暗面Kimi智能助手：立足长文本，探索多模态与多任务处理月之暗面作为AI大模型初创企业的依者，推出了全球首个支持20万（现200万）汉字的长文本输入智能助手产品一一kimi智能助手。通过多模态、复杂任务处理的能力，为用户提供高效、便捷的信息服务。生产力工具：大模型能力内化支撑，融入原有产品形态相较于文本生成类产品，生产力工具并不局限在文本上，而是在打工人日常办公场景下更多涉猎到的思维导图、PPT、会议、编程等单文本生成或者图片生成的产品类型。对于生产力工具而言，其更多是在原有产品的基础上，搭载进阶的AI能力。生产力工具产品图谱中心以新一代编程助手为例，此类产品，现阶段大多在原有IDE产品形态上，以插件形式调动大模型进阶能力。 GitHubCopilot：深度融入开发流程的编码生产力工具 GitHubCopilot是2022年6月由代码托管平台GitHub和人工智能研究机构OpenAI联合推出的智能编码助手。对话式助理：图片模态能力逐渐成为标配伴随着图文模型的研究进展，图片模态能力逐渐加入了对话式聊天产品的能力矩阵当中，图片理解能力和图片生成能力之间循环反馈，图片生成：C端挑战写真馆，B端冲击设计师图片生成类产品，正在形成交互式工作流，在图片产出效率、交互式后期中，探索C端和B端应用。图片生成交互式工作流示意图图片生成产品主要功能、收费模式和现阶段核心痛点示意图用户输入提示现阶段核心痛点收费模式可能是文字提示词（正向、负向），也可能是图片（草图、参考图）+文字提示词的形式付费会员制：通常在免费基础版本上，提供部分功能升级或新功能，例如高清晰度、无水印输出、定制化风格等有限的需求频率：并非每个人日常高频需求，用户的持续付费意隐不足用户思考提示词的过程就是原先的前期思考环节，准确高效的提示词是交互式工作流的基础。隐私和安全顾虑：生成可能沙及用户的个人信息或敏惠数据，如面部识别等。用户可能对其隐移和安全存在顾虑，因此不愿意持绩使用或付费订阅制：提供按月减按年订阅的服务，用户可以享受更多特权和更新的功能图片快速生成从草图到成品，加速对应图片制作周期，提高产出效率交互式后期更直观的后期修改流程、墨盖人脸编辑、风格转换图像修复、局部重绘、背景切换、后期调色等数据来源：InfoQ研究中心根据资讯、报道、公司官网等公开渠道整理美图设计室：一站式电商物料设计提效工具美图设计室是美图公司面向工作场景推出的智能设计工具，聚焦在商品营销个环节物料设计，从商品图模特图的生成，到修图改图到海报设计，帮助用户一站式智能生成商品物料。“AI商拍"为美图设计室的核心亮点功能，聚合了2023年4月以来相继上线的多个AI功能，如“A商品图”、“A模特试衣”、“服装换色"等，解决用户商品拍摄的问题。另与美图设计室的“智能抠图”、“海报设计”等功能配合，为电商物料设计提供一站式解决方案。截止2023年12月，“AI商拍"累计生成超过1.3亿张商品图，累计服务超过218万电商用户。美图设计室视频生成：海外挑战好莱坞，国内技术突破下准备迎接爆款产品海外视频生成已诞生明星产品，例如Pika、Runway、NeverEnd。Meta、Google发布模型相关论文，但尚未公开其产品。国内视频生成技术成果频繁发布，多框架仅需一图即可生成娱乐动态（跳舞、瑜伽等）视频。阿里AnimateAnybody已支撑通义舞王功能上线通义干问手机端APP，爆款小品正在路上。文/图片生视频单路径国内四厂商提出视频生成框架文生视须：VidRD-复旦大学联合华为诺亚方舟实验室提出，在生成视频质量和长度图生视频：AnimateAnybody-网里（已加载进通义千问App）MagicAnimate-字节和新加国立PixelDance（支持生成长达3min的视频）字节，LivePhoto-阿里和港大 Moonvalley.al：变持5种视频风格和5移以内的3种时长选择EmuVideo-Meta：支持生成4秒以内的高清视频（论文）NeverEnd2.0：更新男生提领功能视频生成全家桶国内爆款小品正在路上开阳 Runway升级Gen-2模型：支持文本、图像、文本+图像生成视须的方式，增加导演模式，以生成类似真实相机拍摄电影效果的视频。Pika1.0发布：支持文本、图像、视频生成视频的方式，编组及局邮修补（换装、增减物品）VedioPoet-Google：支持文本/图像生成视频方式，支持生成长达10秒的视频（论文），StableVideoDiffusion：支持生成2-4移的视频发展挑战：商业化盈利方式有待进一步验证大模型技术正在度过最小MVP阶段，即将进入盈利场景挖掘和竞争阶段新盈利场景急需挖掘以盈利为目标，在众多可行的应用场景中挖握可以持续经营的场景。目前的盈利场景尝试还多集中在原有商业模式的提效和升级环节。多样化盈利场景构建目前市场的盈利场景整体较为类似，同质化程度较高，市场有可能会面临小范围场景的高强度过度竞争情况。技术度过可用奇点技术从研究和开发阶段转向具备实际应用潜力的关健时刻，技术已经达到一定的成熟度。但是对于多模态等技术目前仍然末形成产品原型或解决方案，发展挑战：AI安全仍然是市场中无法避免的挑战大模型自身的安全挑战大模型生成内容的安全大模型幻觉安全挑战业内目前是通过长文本、向量数据库+RAG的技术方案解决大模型训练数据安全挑战数据隐私安全、训练数据泄露风险月之随要、百川大模型等产品通过长文本来解决此间题：遇义干间、天工、量火、零一万物等是通过向量数摄库+RAG的技术路线来尝试解决，大模型运行安全挑战大模型面临看来自恶意攻击者的对抗改击、后门政击、成员推断攻击、模型窃取、Prompt投毒等成时。大模型可控安全挑战主要从技术层面出发，尚未形成产业级解决方案大接型的安全整体解决方案奇安信-大续型卫士、深信服安全大模型、360-360安全大模型、安恒信息-恒期安全重域大模型、天胜信-天问大模型大模型文生图片能力洞察文生图片产品尚属绘画和设计的初级阶段根据能力成长阶段，绘画和设计实际分为三个阶段：画/设计得合理、画/设计得美观、画/设计得创意。根据测评结果，现阶段文生图片产品仍处在第一阶段，离完全的商业可用级仍有一定差距。现阶段文生图片产品所处阶段 ③画/设计得创意 2②画/设计得美观创意创作能力：内容、构图造型、色彩、质感等创意生成·人文理解能力：对艺术、文化历史和理论的深入理解和运用产品理解能力：产品定位和市场需求的深入理解和运用 ①画/设计得合理文生图片产品关键能力拆解 InfoQ研究中心根据文生图片类产品的生成任务与关键能力匹配，形成文生产品测评能力维度。整体能力迈过及格线，细节描绘和中文特色能力有待进一步提升实体识别能力：数量和动作/状态识别驱待优化实体识别能力得分率：77.8% 虽然实体对象识别得分率以达到85.7%，但是涉及到多主体识别时，实体对象识别、位置识别、动作/状态识别和数量识别得分率都有所下降动作/状态识别中的简单静态识别成功率较高，但涉及到例如跑步等动态的动作后，生成成功率有所下降国内文生图片大模型产品实体识别能力TOP1 腾讯混元助手得分率：80.2% 细节描绘能力：文字成为主要短板风格理解及中文特色能力：成语难理解，商业设计难直出结果节选请根据以下描述，生成图像：一片草地上有七只白色的兔子在吃草结果节选结果节选多主体识别不完整多主体生成混乱结果节选请根据以下描述，生成图像：一只手托着一朵百合，油画风格，朴素，淡雅，莫奈风格结果节选请根据以下描述，生成图像：为公园汽车电影院设计具有视觉冲击力的活动海报，标题为“公园汽车电影院，欢迎您的加入”，突出公园、夜晚、宁静。 Prompt 结果节选请根据以下描述，生成图像：描述“妙笔生花”的四格漫画结果节选请根据以下描述，生成图像：孤舟囊笠翁，独钓寒塞江雪，水墨画风格结果节选专家致谢（按姓氏首字母排序）感谢各位专家为报告编制工作提供的宝贵建议！陈鑫阿里云智能资深技术专家，通义灵码产品技术负责人杜浦声网AIGC产品负责人林旅强零一万物开源负责人、开源社联合创始人刘洛麒美图公司技术副总裁兼美图影像研究院（MTLab）负责人张涛商汤Copilot应用技术负责人

点击免费查看完整报告

中国大模型季度监测报告（2023年第四季度）

报告摘要

大模型市场加速发展

行业应用与挑战

大模型技术迭代与开源

商业化与挑战

视频与音频生成技术进展

AI应用挑战赛

美图设计室与视频生成工具

总结

你可能感兴趣

2023年第4季度中国大模型季度监测报告

2024年第1季度中国大模型季度监测报告

英大宏观评论(2023年第1期，总第121期)-《2022年第四季度中国货币政策执行报告》解读：国内经济恢复的基础尚不牢固，不排除2季度我国央行降准或降息的可能

菲律宾报告：2023年第四季度建筑市场季度更新

上海甲级写字楼市场季度报告2023年第四季度

2023年第四季度深圳甲级写字楼市场季度报告

中国宏观金融形势分析报告（2023年第四季度）

中国房地产市场报告-2023年第四季度

2023年第四季度中国货币政策执行报告

2023年第四季度中国宽带速率状况报告（第34期）