AI智能总结
2023年第4季度 InfoQ极客传媒 CONTENT目录 01大模型市场进一步加速 02大模型应用挑战赛正式拉开序幕 03大模型文生图能力洞察 大模型市场进一步加速 从工信到其他部门,从中央到地方,政策全面关注鼓励大模型发展 第四季度融资规模暴增,电商、社交场景应用集中吸金 2023年第四季度,虽然融资事件数量从第三季度的28件回落至17件,但融资金额到达46.2亿元人民币,是第三季度的6.4亿元人民币融资规模的6.21倍。 行业大模型不断涌现,通用大模型进入升级和开源阶段 通用大模型专注迭代,大模型赛道入场券所剩无几 截至2023年12月,伴随着零一万物Yi-6B和34B的开源,大模型厂商已全部交卷完成,并完成了平均3轮更新。并且宣传重点从模型参数,转向模型更新下的能力提升。 头部企业大模型发展路径仍然诸多争议 此外,本轮大模型带来的能力提升,也进一步激化了关于商业模式和AI安全的讨过论。第四季度中,国外OPenAI的内斗风波,国内知名投资人与行业从业者各自多轮发声。 国内部分讨论 朱味虎 大模型本身创业不太适合创业者,创业者更应该去寻找在垂直应用场景落地的机会。但现在真要找垂直应用场景还不是那么容易。为什么?因为今天的大模型还没有那么智能。它在很多垂直场景上,只能让人觉得好玩,还达不到商业化质量,这时候真的让人去喝水,可能喝一两口觉得试试看,但是要人持续地喝下去,还需要等大模型再持续的进化。 周鸿祎 在大模型发展这件事上,我是坚定的发展派。原因有两点。第一,大模型的发展水平还远没有到可以威胁人类的程度,现在担忧为时尚早。大模型是有史以来最强有力的生产工具,未来一定会重型生产生活,不发展才是最大的不安全,第三,任何新技术帮有无法预知的安全隐患。谈安全不是为了制约发 展。我们要把不安全的因素一一列出来,针对每个问题寻找解决方案让人们更安全更放心地拥抱新技术。做安全的目的是为发展保驾护航,安全是大模型发展的底线,也是未来大模型的核心竞争力。 大模型应用挑战赛正式拉开序幕 单模态内部应用探索,多模态转换仍找寻商业场景 大模型应用产品开始规模化涌现,走超200款产品面世 文本生成:模型探索长文本的记忆能力,产品开始整合工作流 在底层模型层面,文本生成类产品逐渐开始探索长上下文能力,逐渐从2-4K拓展到100K以上。文本生成类产品,从ChatGPT为代表的技术突破开始,经历了去年一年的摸索,现阶段的产品已经开始整合工作流。 月之暗面Kimi智能助手:立足长文本,探索多模态与多任务处理 月之暗面作为AI大模型初创企业的依者,推出了全球首个支持20万(现200万)汉字的长文本输入智能助手产品一一kimi智能助手。通过多模态、复杂任务处理的能力,为用户提供高效、便捷的信息服务。 生产力工具:大模型能力内化支撑,融入原有产品形态 相较于文本生成类产品,生产力工具并不局限在文本上,而是在打工人日常办公场景下更多涉猎到的思维导图、PPT、会议、编程等单文本生成或者图片生成的产品类型。对于生产力工具而言,其更多是在原有产品的基础上,搭载进阶的AI能力。生产力工具产品图谱中心 以新一代编程助手为例,此类产品,现阶段大多在原有IDE产品形态上,以插件形式调动大模型进阶能力。 GitHubCopilot:深度融入开发流程的编码生产力工具 GitHubCopilot是2022年6月由代码托管平台GitHub和人工智能研究机构OpenAI联合推出的智能编码助手。 对话式助理:图片模态能力逐渐成为标配 伴随着图文模型的研究进展,图片模态能力逐渐加入了对话式聊天产品的能力矩阵当中,图片理解能力和图片生成能力之间循环反馈, 图片生成:C端挑战写真馆,B端冲击设计师 图片生成类产品,正在形成交互式工作流,在图片产出效率、交互式后期中,探索C端和B端应用。 图片生成交互式工作流示意图 图片生成产品主要功能、收费模式和现阶段核心痛点示意图 用户输入提示 现阶段核心痛点 收费模式 可能是文字提示词(正向、负向),也可能是图片(草图、参考图)+文字提示词的形式 付费会员制:通常在免费基础版本上,提供部分功能升级或新功能,例如高清晰度、无水印输出、定制化风格等 有限的需求频率:并非每个人日常高频需求,用户的持续付费意隐不足 用户思考提示词的过程就是原先的前期思考环节,准确高效的提示词是交互式工作流的基础。 隐私和安全顾虑:生成可能沙及用户的个人信息或敏惠数据,如面部识别等。用户可能对其隐移和安全存在顾虑,因此不愿意持绩使用或付费 订阅制:提供按月减按年订阅的服务,用户可以享受更多特权和更新的功能 图片快速生成 从草图到成品,加速对应图片制作周期,提高产出效率 交互式后期 更直观的后期修改流程、墨盖人脸编辑、风格转换图像修复、局部重绘、背景切换、后期调色等 数据来源:InfoQ研究中心根据资讯、报道、公司官网等公开渠道整理 美图设计室:一站式电商物料设计提效工具 美图设计室是美图公司面向工作场景推出的智能设计工具,聚焦在商品营销个环节物料设计,从商品图模特图的生成,到修图改图到海报设计,帮助用户一站式智能生成商品物料。“AI商拍"为美图设计室的核心亮点功能,聚合了2023年4月以来相继上线的多个AI功能,如“A商品图”、“A模特试衣”、“服装换色"等,解决用户商品拍摄的问题。另与美图设计室的“智能抠图”、“海报设计”等功能配合,为电商物料设计提供一站式解决方案。 截止2023年12月,“AI商拍"累计生成超过1.3亿张商品图,累计服务超过218万电商用户。 美图设计室 视频生成:海外挑战好莱坞,国内技术突破下准备迎接爆款产品 海外视频生成已诞生明星产品,例如Pika、Runway、NeverEnd。Meta、Google发布模型相关论文,但尚未公开其产品。国内视频生成技术成果频繁发布,多框架仅需一图即可生成娱乐动态(跳舞、瑜伽等)视频。阿里AnimateAnybody已支撑通义舞王功能上线通义干问手机端APP,爆款小品正在路上。 文/图片生视频单路径 国内四厂商提出视频生成框架 文生视须:VidRD-复旦大学联合华为诺亚方舟实验室提出,在生成视频质量和长度图生视频:AnimateAnybody-网里(已加载进通义千问App)MagicAnimate-字节和新加国立PixelDance(支持生成长达3min的视频)字节,LivePhoto-阿里和港大 Moonvalley.al:变持5种视频风格和5移以内的3种时长选择EmuVideo-Meta:支持生成4秒以内的高清视频(论文)NeverEnd2.0:更新男生提领功能 视频生成全家桶 国内爆款小品正在路上开阳 Runway升级Gen-2模型:支持文本、图像、文本+图像生成视须的方式,增加导演模式,以生成类似真实相机拍摄电影效果的视频。Pika1.0发布:支持文本、图像、视频生成视频的方式,编组及局邮修补(换装、增减物品)VedioPoet-Google:支持文本/图像生成视频方式,支持生成长达10秒的视频(论文),StableVideoDiffusion:支持生成2-4移的视频 发展挑战:商业化盈利方式有待进一步验证 大模型技术正在度过最小MVP阶段,即将进入盈利场景挖掘和竞争阶段 新盈利场景急需挖掘 以盈利为目标,在众多可行的应用场景中挖握可以持续经营的场景。目前的盈利场景尝试还多集中在原有商业模式的提效和升级环节。 多样化盈利场景构建 目前市场的盈利场景整体较为类似,同质化程度较高,市场有可能会面临小范围场景的高强度过度竞争情况。 技术度过可用奇点 技术从研究和开发阶段转向具备实际应用潜力的关健时刻,技术已经达到一定的成熟度。但是对于多模态等技术目前仍然末形成产品原型或解决方案, 发展挑战:AI安全仍然是市场中无法避免的挑战 大模型自身的安全挑战 大模型生成内容的安全 大模型幻觉安全挑战业内目前是通过长文本、向量数据库+RAG的技术方案解决 大模型训练数据安全挑战数据隐私安全、训练数据泄露风险 月之随要、百川大模型等产品通过长文本来解决此间题:遇义干间、天工、量火、零一万物等是通过向量数摄库+RAG的技术路线来尝试解决, 大模型运行安全挑战 大模型面临看来自恶意攻击者的对抗改击、后门政击、成员推断攻击、模型窃取、Prompt投毒等成时。 大模型可控安全挑战主要从技术层面出发,尚未形成产业级解决方案 大接型的安全整体解决方案 奇安信-大续型卫士、深信服安全大模型、360-360安全大模型、安恒信息-恒期安全重域大模型、天胜信-天问大模型 大模型文生图片能力洞察 文生图片产品尚属绘画和设计的初级阶段 根据能力成长阶段,绘画和设计实际分为三个阶段:画/设计得合理、画/设计得美观、画/设计得创意。根据测评结果,现阶段文生图片产品仍处在第一阶段,离完全的商业可用级仍有一定差距。 现阶段文生图片产品所处阶段 ③画/设计得创意 2②画/设计得美观 创意创作能力:内容、构图造型、色彩、质感等创意生成·人文理解能力:对艺术、文化历史和理论的深入理解和运用产品理解能力:产品定位和市场需求的深入理解和运用 ①画/设计得合理 文生图片产品关键能力拆解 InfoQ研究中心根据文生图片类产品的生成任务与关键能力匹配,形成文生产品测评能力维度。 整体能力迈过及格线,细节描绘和中文特色能力有待进一步提升 实体识别能力:数量和动作/状态识别驱待优化 实体识别能力得分率:77.8% 虽然实体对象识别得分率以达到85.7%,但是涉及到多主体识别时,实体对象识别、位置识别、动作/状态识别和数量识别得分率都有所下降 动作/状态识别中的简单静态识别成功率较高,但涉及到例如跑步等动态的动作后,生成成功率有所下降 国内文生图片大模型产品实体识别能力TOP1 腾讯混元助手得分率:80.2% 细节描绘能力:文字成为主要短板 风格理解及中文特色能力:成语难理解,商业设计难直出 结果节选 请根据以下描述,生成图像:一片草地上有七只白色的兔子在吃草 结果节选 结果节选 多主体识别不完整 多主体生成混乱 结果节选 请根据以下描述,生成图像:一只手托着一朵百合,油画风格,朴素,淡雅,莫奈风格 结果节选 请根据以下描述,生成图像:为公园汽车电影院设计具有视觉冲击力的活动海报,标题为“公园汽车电影院,欢迎您的加入”,突出公园、夜晚、宁静。 Prompt 结果节选 请根据以下描述,生成图像:描述“妙笔生花”的四格漫画 结果节选 请根据以下描述,生成图像:孤舟囊笠翁,独钓寒塞江雪,水墨画风格 结果节选 专家致谢(按姓氏首字母排序) 感谢各位专家为报告编制工作提供的宝贵建议! 陈鑫阿里云智能资深技术专家,通义灵码产品技术负责人杜浦声网AIGC产品负责人林旅强零一万物开源负责人、开源社联合创始人刘洛麒美图公司技术副总裁兼美图影像研究院(MTLab)负责人张涛商汤Copilot应用技术负责人