您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:多模态大模型专家交流 - 发现报告

多模态大模型专家交流

2025-06-08未知机构E***
AI智能总结
查看更多
多模态大模型专家交流

多模态大模型专家交流20250608 会议要点 1、多模态模型技术特点 ·与多媒体的区别:2023-2024年上半年多态约等于多媒体,涵盖语音、音频、图片、视频等。但2024年后,随着大模型技术发展,多态含义更丰富,一类信息或数据若有独特处理方式即为一个模态,如新闻联播中的手语在多模态时代是独立模态而多媒体时代被定性为视频。 应用场景分类:当前常见为双模态和三态场景。双态如语音加文字、语音加情感,甚至没有声音但配手语的画中画视频;三态即真多模态,一般为三个态。与单模态本质区别:在训练角度,单模态如GPT基于强化学习且无标注可行,但多态涉及两个及以上模态就一定涉及数据标注,成本和周期更长,且要解决向量统一问题,即不同模态转码后的向量要统一并能合并理解信息。推理生成阶段,多态消耗大,可能涉及额外编码辅助能耗,生成时还可能涉及转文字,成本较高,且不同模态结合的复杂度和成本有明显区别,如语音加视频的理解生成成本高,文字加图片成本低。 2、多模态模型发展制约因素 算力制约:多模态研究尤其在复杂图片和视频方向,算力是基础制约因素。如谷歌VIVO3视频生成大模型研发和训练,需日常投入50万片H100或H200级别芯片并配合自研TPU,耗时三个月,而国内截至2023年末进口H100量可能都没50万片。国内部分公司为应对算力不足,强调模型推理消耗小,但生成视频相对简单。算力不足导致算法推进变缓,数据层面目前围绕广告素材、自媒体短视频等应用的数据够用。技术难点:多模态理解环节,国内理论上有进展,之前需先掌控不同单模态输入向量化能力,制定中间向量统一不同模态信息,但存在信息损失,且多模态输入涉及视频时,注意力机制对产困难。二季度出现跨模态注意力机制,以视频或文字为主导提升效果,但向量对齐仍有较大精确度损耗。生成环节,算力是卡点,多态生成推理比模型预训练学习视频更耗算力,且当前transformer架构的注意力机制在将信息转化为视频时,无法处理长视频,生成内容不可控。涉及视频的多态生成表现差,不涉及视频的如文字加语音等表现较好但能耗高。 3、多模态模型国内外进展与商业化 国内公司情况:对大模型全面投入的公司只剩阿里和字节。在文生视频领域,快手和MiniMax的海螺表现较好,阿里通义及字节集梦系部分模型在该领域相对表现欠佳。国内公司在视频生成方向商业化做得好,如快手利用自身短视频优势推出受欢迎的文生视频单模态模型 国外公司情况:国外头部公司中,GPT-4对多模态综合输入理解好,生成图片效果佳,但无视频生成;谷歌的Vivo2和Vivo3技术实力强,Vivo3可做到有人类语音对白的视频生成,Vivo2能实现两分钟4K视频生成。国内公司短期内追上谷歌在文生视频或视频多模态生成上的表现概率低,如可伶、VMax因资源和算力限制,三个月内追上Vivo3的可能性极小,字节虽堆积能力可能性大,但至少也需三个月。 4、边缘计算在多模态场景应用 边缘计算思路:利用边缘计算有两套思路,一是将整个计算做阶梯式拆分,分为用户手机端、边缘计算、远端服务器,让不同级别硬件各司其职,提升效能、降低成本;二是根据模型部署尺寸不同,如手机部署5-7B模型,端上部署7B-32B模型,远端服务器部署32B以上全尺寸模型,不同模型在不同环节做不同工作。 应用案例及优势:以豆包视频通话为例,原模式下手机端截屏、压缩转码发回服务器,便宜手机可能无法使用且网络传输成本高。结合边缘计算后,手机端只负责截取画面发至边缘计算,由边缘计算批量压缩、解码再发回服务器,提升用户体验,扩大可接受手机端范围,且服务器推理成本不变。又如抖音推荐场景,通过边缘计算推理用户视频偏好,减少服务器计算成本。 5、强化学习及相关模型在多模态应用 强化学习应用局限:强化学习理念在多模态或图片视频生成方向应用本身没问题,但与少量数据标注结合不适配。因为在图片视频场景,不做标注模型无法判断对错,所以在单模态图片视频理解生成及多模态中,都绕不过大量标注,强化学习可应用于理解、总结、概率推理环节,但不能期待其在图片视频单模态及多模态上实现与文生文结合后的少量标注或不标注效果。 LLM模型作用:GPT-3是文本类自推理模型,在多态理解上,需先将图片或视频内容转码向量化后发给LLM模型,它可总结出一些内容,但对多态的视频生成、音视频理解等环节,除内容理解、逻辑推理调用该模型外,其他环节贡献暂时不适用。 6、世界模型建设及开源动态 世界模型建设进度:世界模型建设分三个级别,最初级是视频理解模型,推理速度快,能快速识别视频内容;其次是VLM模型,推理速度稍慢,但具备空间和时间推断能力;最高级是世界大模型,不仅有时间空间能力,还能像人一样有人文社科思考国内外目前都处于第二个级别,国内研究VLM模型的公司少,阿里和字节投入相对多。英伟达虽在推世界大模型,但也承认无法做到完全理解世界,当前是分场景逐步推动。从VLM过渡到世界大模型,国内算力可能是瓶颈,国外则通过囤卡抢占先机。开源模型情况:国内开源模型中,千帆已开源的模型以及字节开源的白狗、通义千帆万象系列在视觉理解功能等全模态理解方面表现不错,但VLM方向开源模型国内目前还没有表现很好的,因其研发成本高。 7、大厂多模态应用产品亮点 ·阿里:阿里通义系列大模型综合能力强,多态方面竞争力有望保持。虽在C端动作不激进,但会在阿里系的高德、优酷等公司广泛应用其ASR实时语音、通义万相等技术。 字节:字节在多模态应用领域广泛且表现不错。对外输出方案上,火山引擎即将上线众包视频通话实时理解功能;语音能力方面,双工实时对话和语音合成综合表现好还推出一键生成播客模型;文生图方向比较领先;文生视频方向综合技术能力强,但生成视频表现非最佳,不过是国内仅有的在全模态理解后做生成式输出的公司之一。 8、多模态B端应用产业节奏 agent价值体现:多模态agent分普通型和生成式多态。普通型agent在原有功能升级场景能快速发挥价值,如快递公司招聘流程可由其替代人工审核。生成式多模态agent适合做通用的文生图、文生视频等综合性生成应用,提升场景表现。同时,在输入理解端,agent可辅助拆分提升理解能力。 相互促进关系:多模态模型也可借助agent表现更好,如音视频理解模型应用到摄像头上,可快速捕捉老人摔倒等情况,推动agent向AI发展。 Q&A Q:多模态模型与传统的单模态模型,在数据处理、模型设计和应用场景上有哪些核心和本质的差异? A:多模态和多媒体有差别,2023-2024年上半年多模态约等于多媒体,之后随着大模型技术发展,多模态范围定义内的信息或数据比多媒体更丰富。如新闻联播有手语辅助,在多媒体时代是一段视频新闻,在多模态时代是两个模态,因为手语有独特信息处理方式。当前常见场景分双模态(如语音加文字、语音加情感、无声音视频配手语等和三模态。在技术结构上,多态和单模态从训练和推理两角度有本质区别。训练角度,单模态如语音识别基于强化学习无标注可行,但多模态涉及两个及以上模态时绕不过数据标注,成本和周期会长一些,且要解决向量统一问题,即不同模态转码后的向量要统一并放到同一空间协同工作,让模型具备理解能力。推理生成阶段,多态消耗大,可能涉及额外编码辅助能耗,生成信息时还可能需转文字,成本变高。此外,不同模态结合时,背后算法变化复杂度及消耗成本有明显区别,如语音加视频理解生成成本高,文字加图片理解生成成本低。 Q:从算法、数据、算力三个维度,如何相对更量化地评价其对多模态后续模型能力升级的影响? A:在多模态研究尤其是视频方向,算力是第一步的基础制约因素。从算力角度来看Google最新的视频生成大模型VIVO3在核心研发及训练阶段,需投入50万片H100或H200级别的芯片并配合其自研的TPU,耗时三个月。而从2023年末的商务禁令来看,国内总计进口的H100量可能都没50万片。此外,国内字节、快手、MiniMax等公司在今年季度发布或更新的文生视频方向模型,都强调推理消耗超级小,甚至可用4050、4090做推理,但生成的视频相对简单;而美国公司如GPT-4、VIVO3等,没人提及生成省卡省算力,只说视频图片方向的进步。由于国内卡少,工程师写代码验证对错的效率远低于美国,导致算法进展变慢。从数据层面来看,目前围绕基本广告素材、自媒体短视频等,这些年积累的广告、电视剧、影视剧、自媒体以及专业级工作室拍摄的高清精致视频是够用的。 Q:动态的数据融合和线上统一维度的具体技术难点体现在哪里?2024年至今在算法维度有哪些比较重点的突破?如何看待跨态、多双模态、多模态等更多维度的未来世界模型建设的进展节奏? A:多模态可从工作原理上拆分为多模态理解(输入)、多模态生成(输出)和理解三个环节,每个环节都可独立成一个场景。从模态成熟度来看,语音文字模态相对成熟,语音单模态掌控性较好,图片单模态的理解生成表现不错,而视频尤其是生成方向还有很大提升空间。在多模态理解环节,当前国内理论上有进展。三五个月前,要先掌控 对不同模态单模态输入的向量化能力,再定制出能将不同模态信息转换成统一向量的中间向量,但在统一向量化过程中会出现信息损失问题,且大模型注意力机制在处理涉及视频的多模态输入时,需要做详细编码对齐工作。二季度开始有了跨模态注意力机制的进展,即涉及视频时以视频为主,不涉及视频优先考虑文字,确定核心依据后,向量转码空间对齐以及注意力机制效果会有提升,但目前向量对齐仍有损目精确度损耗较大。在多模态生成环节,存在两大问题。一是算力问题,多态生成的推理过程比模型预训练时更耗算力;二是当前transformer架构的注意力机制问题,在将信息转化成长视频时会发散,导致内容不可控。深层次多模态涉及视频时表现较差,若不涉及视频,如生成文字加语音、语音加情感、带文字的图片等表现较好,但能耗较高。总体而言,多模态涉及视频的技术仍处于早期,还有很大发展空间。 Q:动态的数据融合和线上统一维度的具体技术难点体现在哪里?2024年至今在算法维度有哪些比较重点的突破?如何看待跨态、多双模态、多模态等更多维度的未来世界模型建设的进展节奏? A:多模态可从工作原理上拆分为多模态理解(输入)、多模态生成(输出)和理解三个环节,每个环节都可独立成一个场景。从模态成熟度来看,语音文字模态相对成熟,语音单模态掌控性较好,图片单模态的理解生成表现不错,而视频尤其是生成方向还有很大提升空间。在多模态理解环节,当前国内理论上有进展。三五个月前,要先掌控对不同模态单模态输入的向量化能力,再定制出能将不同模态信息转换成统一向量的中间向量,但在统一向量化过程中会出现信息损失问题,且大模型注意力机制在处理涉及视频的多模态输入时,需要做详细编码对齐工作。二季度开始有了跨模态注意力机制的进展,即涉及视频时以视频为主,不涉及视频优先考虑文字,确定核心依据后,向量转码空间对齐以及注意力机制效果会有提升,但目前向量对齐仍有损目精确度损耗较大。在多模态生成环节,存在两大问题。一是算力问题,多态生成的推理过程比模型预训练时更耗算力;二是当前transformer架构的注意力机制问题,在将信息转化成长视频时会发散,导致内容不可控。深层次多模态涉及视频时表现较差,若不涉及视频,如生成文字加语音、语音加情感、带文字的图片等表现较好,但能耗较高。总体而言,多模态涉及视频的技术仍处于早期,还有很大发展空间。 Q:国内厂商大概多久能够实现接近于谷歌最新生态模型的能力? A:国内对大模型全面投入的公司只剩阿里和字节。在生成式视频多模态方面,国内表现好的是minimax,阿里通义、字节奇梦系里的一些模型在文生视频领域不如快手和minmax的海螺。国内公司商业化做得好,如快手可伶利用自身优势在文生视频单模态及结合快手的表现最受欢迎。国外表现好的头部公司是GPT-4和谷歌的Vivo2、Vivo3GPT-4对多模态综合输入理解好,生成图片效果佳;谷歌Vivo3能做到有人类语音对的视频生成,Vivo2视频时长可达两分钟目为4K。若国内公司继