证券研究报告|2023年10月19日 核心观点行业研究·行业投资策略 多模态模型历经多个阶段的发展,性能实现飞跃,现为AI大模型的新方向多模态模型综合不同类型数据进行分析处理,拥有更高的准确性和鲁棒性,更贴近人类学习模式。随着大模型时代的到来,多模态技术迅速发展,如OpenAI的GPT系列不断推出新版本,提升了语言生成、逻辑推理以及多模态处理能力,预计将在各领域得到广泛应用。该系列模型不断增强的功能和性能,标志着人工智能发展的新阶段。 多模态模型的发展方向包括视觉理解、视觉生成、统一视觉、LLM支持以及多模态Agent,并从专业性向通用性改变,应用性增强。近期研究表明,多模态大模型发展方向涵盖了:1)视觉理解,涉及对图像信息进行深入解释;2)视觉生成,特别是生成符合人类意图的图像等内容;3)构建统一视觉模型,该方向面临多重挑战,但在CV领域未来的应用中非常有价值;4)LLM支持的多模态大模型显示出强大的跨模态理解能力;5)多模态Agent是当前研究的前沿方向,旨在通过将多个专家模型与LLM相结合来解决复杂的多模态理解问题。此外,多模态大模型已开始向通用方向转变,并在文本、图像、音视频等多个领域展现出应用潜力,如教育、办公、遥感、医疗和工业等领域。 机器人是多模态AI优质落地场景,商用落地有望加速。多模态模型融合视频、语言、文字等多方面能力,使得机器人能够将不同感知渠道获取的信息整合起来,形成更全面、准确的环境认知,从而更加高效地应对复杂多变的任务需求。多模态大模型的应用在机器人领域有充分的发挥空间。经过程序控制机器人、自适应机器人和智能机器人三波发展浪潮,智能人形机器人成为发展趋势。特斯拉打通了FSD和机器人的底层模型,Optimus采用端到端神经网络训练运行,实现视频信号输入,控制信号输出。尤其Optimus在23年的快速迭代进步,市场对于人形机器人的产业落地预期将提前,Optimus有望成为最快实现规模化商用的机器人。根据第三方预测,GGII预计到2026 年全球人形机器人在服务机器人中的渗透率有望达到3.5%,市场规模超20 亿美元,到2030年全球市场规模有望突破200亿美元。AI和机器人的持续融合也将进一步推动具身智能的发展,目前微软、谷歌等巨头均已在加大该领域投入。 投资建议:随着GPT-4V的推出,多模态将进一步扩大AI的应用范围,机器人也是极佳的多模态AI应用场景。此外,随着AI大模型成本下降与技术发展,AI应用产业将快速进步。建议重点关注AI应用、多模态、机器人领域相关个股,如萤石网络、宝信软件、金山办公、科大讯飞。 公司 公司 投资 昨收盘 总市值 EPS PE 代码 名称 评级 (元) (亿元) 2023E 2024E 2023E 2024E 002230 科大讯飞 买入 53.47 1238 0.86 1.02 62.17 52.42 688111 金山办公 买入 345.00 1593 3.06 4.04 112.75 85.40 风险提示:大模型技术发展不及预期;AI商业化落地不及预期等。重点公司盈利预测及投资评级 资料来源:Wind、国信证券经济研究所预测 计算机 超配·维持评级 证券分析师:熊莉证券分析师:库宏垚021-61761067021-60875168 xiongli1@guosen.com.cnkuhongyao@guosen.com.cnS0980519030002S0980520010001 联系人:艾宪0755-22941051 aixian@guosen.com.cn 市场走势 资料来源:Wind、国信证券经济研究所整理 相关研究报告 《计算机行业周报-微软Copilot重磅发布,华为引领大模型行业赋能》——2023-10-11 《Copilot功能演示及空间测算:AI或开启微软第三轮增长》— —2023-10-08 《信息安全深度剖析6:海外巨头引领安全大模型,安全产业是AI价值洼地》——2023-09-27 《计算机行业2023年9月投资策略暨财报总结-23H1计算机板块 业绩稳步增长,关注机器人领域产业机会》——2023-09-13 《人工智能行业专题:AI产业链分析与展望》——2023-08-24 计算机行业2023年10月投资策略 GPT4-V推动多模态应用,机器人是极佳落地场景 超配 请务必阅读正文之后的免责声明及其项下所有内容 内容目录 多模态模型快速发展,新应用落地可期4 多模态是AI大模型的新方向4 多模态模型厚积薄发,性能实现飞跃4 多模态模型五大方向:视觉理解、视觉生成、统一视觉、LLM支持、多模态Agent6 多模态大模型逐步从专用转向通用,应用性增强10 机器人是多模态AI优质落地场景,商用落地有望加速11 多模态将赋能机器人应用11 多技术融合创新,推动机器人能力边界持续拓展12 特斯拉开启人形机器人新时代13 AI大模型+机器人,“具身智能”时代有望开启14 投资建议:关注多模态、机器人及AI应用16 风险提示16 图表目录 图1:MSRA提出桥塔架构(Bridge-TowerArchitecture)多模态预训练模型(视觉-语言)4 图2:多模态模型发展的五个阶段5 图3:视觉理解训练方法6 图4:视觉理解各方法的代表算法6 图5:视觉生成的重点为一致性生成7 图6:CV领域的关注点为是否可以实现统一视觉模型7 图7:统一视觉模型研究案例,更好地将文本与视觉匹配8 图8:LLM支持的多模态大模型,典型案例为GPT-4V,可以识别图像并详细叙述9 图9:多模态agent的研究案例9 图10:模型识别CT影像,可应用于医疗领域10 图11:模型识别手写方程,可应用于教育领域10 图12:大模型建立数字人,可应用于工业领域11 图13:多模态大模型MC-ACT赋能机器人,增强其通用性11 图14:机器人种类繁多,可分为工业、服务、特种机器人12 图15:机器人与AI技术结合13 图16:特斯拉机器人做瑜伽13 图17:特斯拉机器人做物品分类13 图18:2024年10月Dojo总算力规模将达到100Exa-Flops14 图19:SayCan与PaLM结合使用时,成功规划了101条测试指令中的84%15 图20:ChatGPT应用于机器人的设计原则15 表1:GPT大模型的发展历程6 多模态模型快速发展,新应用落地可期 多模态是AI大模型的新方向 多模态模型是指将不同类型的数据(例如图像、文字、视频、语音等)结合起来进行分析处理的模型。其通过不同数据类型的相互关联和结合,可以大幅提高模型的准确性和鲁棒性,应用场景进一步拓展。其次,多模态更接近人类学习的模式,在物理世界中,人类认知一个事物并不是通过单一模态,例如认知一只宠物,可以从视觉(宠物形貌)、听觉(宠物叫声)、嗅觉(宠物体味)、触觉(宠物毛发、宠物体温等)等多模态全面立体认知,是未来人工智能的发展方向。 图1:MSRA提出桥塔架构(Bridge-TowerArchitecture)多模态预训练模型(视觉-语言) 资料来源:MSRA,国信证券经济研究所整理 多模态模型厚积薄发,性能实现飞跃 多模态模型历经多个发展阶段,模型复杂度和性能持续提升。多模态模型的发展经历了五个关键阶段,分别是行为、计算、交互、深度学习和大模型时代。这一发展历程始于最初对行为理论和科学研究的探索,如今正逐步转向多模态技术在产业领域的实际应用。在这一过程中,半导体技术和计算机科学的迅猛发展扮演了重要的推动角色。多模态模型逐渐从简单模拟人类行为模式转变为复杂的计算模型,随着深度学习技术的兴起,这些模型获得了更深层次的理解和学习能力,使得其在图像、语音、视频等多种形式数据处理上取得了突破性进展。 大模型开启新时代,多模态技术发展迅速。2020年大模型时代到来,多模态技术的发展得到进一步推进。大模型时代的核心在于构建能够处理海量数据的大规模模型,从而使得多模态模型在处理复杂任务时展现出了更高的性能和智能。最近,OpenAI发布的GPT-4V已经具备了强大的图片理解、逻辑推理以及情感感知能力,预计将在各产业得到广泛应用。 图2:多模态模型发展的五个阶段 资料来源:CarnegieMellonUniversity,国信证券经济研究所整理 GPT大模型持续迭代,多模态是发展趋势。GPT大模型经历了6个发展阶段,模型体积增大、功能不断增强,性能实现飞跃: 1)2018年5月OpenAI发布GPT初代版本,其特点为半监督式学习,在训练方式上依赖于数据标注和模型微调; 2)GPT-2于2019年2月正式发布,相较于GPT-1的无监督式预训练+有监督式学习和模型微调,GPT-2舍弃了微调,直接通过大规模数据进行预训练,让模型开始具备解决多种语言任务的能力; 3)GPT-3于2020年5月正式发布,不仅在训练方式上引入In-context学习,使得模型在Few-shot上有更优秀的表现;同时模型参数量提升两个数量级,是真正意义上的大语言模型,训练成本也大幅提升; 4)OpenAI在2022年11月发布ChatGPT(GPT-3.5),该模型引入了基于人工反馈的强化学习进行训练,语言生成能力大幅提升,可以完成自动文本生成、问答、对话等复杂的语言任务。在海量数据和参数的支撑下,模型也具备一定的逻辑推理与思维能力,可以做一些相对复杂的任务; 5)GPT-4是OpenAI在ChatGPT的基础上进一步迭代,并于2023年3月15日发布的模型。GPT-4在3.5版本的基础上增强了生成文本(包括代码)的能力,同时还接受图像和文本输入。模型在多领域通过专业水平考试,在专业和学术基准上表现出接近人类的水平; 6)GPT-4V是近期OpenAI要发布的多模态模型。模型增加了语音功能,且图像理解能更加强大,可以进行语音对话和图像展示,提供更直观的界面。目前这些功能逐步推向Plus和Enterprise用户,未来将扩大到其他用户群体。也会开拓下游工业、医疗、机器人、汽车保险等行业应用。 表1:GPT大模型的发展历程 模型功能与能力发布时间 GPT-1有监督学习和无监督学习的结合,模型的语言泛化能力不够,更接近于处理特定语言任务的专家模型,而非通用的语言模型 GPT-2舍弃了模型微调,让多个不同的任务在同一个模型上学习,构建了一个泛化能力更强的语言模型,开始让语言模型的通用性得到了更加充分的展现 GPT-3在训练方法上则采取了In-context学习,参数量相较于GPT-2提升了两个数量级,达到了1750亿,数据集在处理前容量达到了45TB,是真正意义上的大语言模型 ChatGPT(GPT-3.5)引入人类反馈的强化学习(RLHF)及近端策略优化算法(PPO)等新的训练方式后,语言生成能力大幅提升,并且涌现出了思维链及逻辑推理等多种能力 GPT-4在推理能力、文本生成能力、对话能力等方面有了进一步提升的同时,实现了从大语言模型向多模态模型进化的第一步 2018年5月 2019年2月 2020年5月 2022年11月 2023年3月 GPT-4V支持文本图片交错输入的多模态能力,图片理解能力、逻辑推理能力、情感感知能力表现优异2023年10月 资料来源:OpenAI,国信证券经济研究所整理 多模态模型五大方向:视觉理解、视觉生成、统一视觉、LLM支持、多模态Agent 多模态模型五大方向——视觉理解、视觉生成、统一视觉、LLM支持、多模态Agent。近期,微软多位研究员联合撰写文章,对多模态模型进行了全面的研究和分类,并关注了模型从专业性向通用性转变的特点。在模型分类中,研究员们将模型研究方向分为两大类五个主题:1)目前已成熟、完善的研究主题,包括包括视觉理解、视觉生成;2)具备探索性、开放性的前沿研究领域,包括统一视觉模型、受LLM(大语言模型)支持的多模态大模型以及多模态agent。 方向一:视觉理解。在AI领域,视觉理解是指使计算机系统能够解释和理解视觉信息的能力。视觉理解的核心问题是通过预训练使