AI智能总结
刘宇 通义实验室通义万相负责人 视觉生成大模型的进化曲线 第二阶段 第一阶段 第四阶段 第三阶段 阶段 逐步成熟 全面发展 逐步渗透 萌芽 •ControlNet面世,初探可控生成之道•LLM驱动视觉生成,渐显精准语义理解与多模生成•行业落地,AI原生应用百花齐放,崭露头角 •深度可控,能够根据任务自我规划和创作,大幅提升内容生成生成力•视频和3D生成技术效果向实际应用靠拢•视觉生成成为普惠化的信息生产和传播方式 阶段特征 深度可控,成为普惠化能力 技术萌芽到开源生态的繁荣 通义万相:从模型到应用生态 通义万相:图像生成 基础模型:Composer 1.0 组合式生成框架,提供高度可控性和极大创作自由度,ICML 500,000+ 2023.7.7通义万相发布以来 累计生成图片数 *截止2023.10.30通义万相统计数据 基础模型:Composer 1.X 基于大语言模型、细粒度图文对齐的图像生成新范式,Coming soon 精确语义理解 属性绑定 空间关系 复杂场景 一只戴着白色VR眼镜的大猫走在上海的城市街道上。背景中,左边是东方明珠电视塔,右边是城皇庙 戴着蓝色贝雷帽、黄色太阳镜和红色围巾的金毛犬 桌子上有10个苹果 一只麻雀、一只鸽子、一只鹦鹉和一只猫头鹰 一只大猩猩坐在办公室桌子前,手里拿着一杯葡萄酒,后面的墙上挂着一个鹿头 一只金属小鸟站在木制金字塔上 微调定制化:多概念定制化Cones Cones 1 定制化生成示例 •高度轻量化、高质量、可扩展、鲁棒性的多概念定制化生成,ICML 2023 Oral。 Cones 2 •首个做到超多概念同时定制化生成的方法,支持定制化概念数量超过此前SOTA一倍;•与现有方法进行对比,从训练的计算复杂度,以及生成效果,均有显著提升, NeurIPS2023,已在ModelScope、GitHub开源。 零样本定制化:视觉AI任意门 •零样本物体级图像合成技术,将目标传送至特定场景、特定位置,无需微调,轻松生成高质量、高保真的合成图像。 •广泛应用于图像定制化、多目标组合、虚拟试衣、物体移动换位等多项任务,无限创意尽在掌握。技术细节可参考AnyDoorarXiv论文,即将推出创新应用,敬请期待! 单目标合成 AnyDoor框架图 物体移动、换位 模型高效微调:Res-Tuning SWIFT轻量级训练推理框架 Res-Tuning微调算法 •可扩展的轻量级一站式训练推理框架;集成了各种高效的微调方法,如LoRA、QLoRA、以及自研的Res-Tuning Bypass等; •无缝兼容ModelScope生态系统,打通数据集读取、模型下载、模型训练、模型推理、模型上传等流程 •在CV、多模态等领域均经过了系列验证,在训练效果和其他微调方法相当的情况下,可以做到显存节省30%~60%,NeurIPS 2023,已在ModelScopeSWIFT库开源。 https://github.com/modelscope/swift 通义万相:视频生成 图像生成视频:I2VGen XL •高清图像生成视频大模型-I2VGen-XL,两阶段模型,分别解决语义一致性和清晰度的问题,参数量共计约37亿; •大规模混合训练:在大规模视频和图像数据混合预训练,并在少量精品数据上微调得到,兼具泛化性和生成质量;已在ModelScope开源。 I2VGen XL框架 视频可控生成:VideoComposer •VideoComposer将视频分解成空间、时序、文本条件,通过组合生成方式提升可控性;•论文发表在NeurIPS2023,已在ModelScope、GitHub开源。 VideoComposer框架图 Motion Transfer 通义万相:发展丰富AI创作应用生态 趣味应用:涂鸦作画 •能力:手绘涂鸦,叠加简单文字描述,一键生成创意大作;•技术:Composer文本+涂鸦组合生成,同时满足涂鸦和文本输入约束;•支持多种风格化,已经上线通义万相-应用广场,欢迎体验! https://tongyi.aliyun.com/wanxiang/app/doodle 电商行业应用:虚拟模特 •支持配置模特与场景,智能生成商品展示图;•降低商品展示环节的场地、模特、修图等拍摄成本,一步到位获得专属模特大片。 https://tongyi.aliyun.com/wanxiang/app/virtual-model 魔搭开源社区:MotionAgent •剧本生成•剧照生成•视频生成•配乐生成 通义万相行业标杆范例 通义万相,持续进化,促进视觉AIGC普惠化 https://tongyi.aliyun.com/wanxiang THANKS