行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2024年AI影像创作者手册

信息技术 2024-01-03 - 可灵AI Lumière

AI影像创作者手册总结

引言

AI生成影像的发展历史悠久，其原理主要基于深度学习模型，通过大量数据训练实现图像生成。AI影像创作工具的基础功能包括提示词设计、风格化处理和转绘等。

核心功能与原理

提示词设计：提示词是AI影像创作的核心，格式通常为“主体（主体描述）+运动+场景（场景描述）+镜头语言+光影+氛围”，正向词和负向词共同控制生成内容。
多模态技术：整合文本、图像、声音等模态提升AI理解和处理能力，包括文生视频（T�V）、图生视频（I�V）、视频生视频（V�V）等技术。
大模型幻觉：大型预训练语言模型在生成内容时可能产生与事实不符的内容，需注意数据质量。
垫图/喂图：通过输入参考图片控制生成内容，提高视觉效果。

创作流程与工作流

工作流：指AI影像创作中的一整套流程，通过多个AI工具协同工作实现复杂效果。
提示词工程：精心设计提示词优化生成结果，包括正向词和负向词的使用。
炼丹：针对特定角色或风格训练微调模型（如Lora模型），提升生成效果。
角色一致性：控制AI生成角色外观和特征的稳定性，对剧情类和广告类作品尤为重要。
镜头控制：操作镜头稳定固定、推进拉远等，增强视觉叙事效果。
局部重绘：调整或重新绘制生成内容的局部细节，优化视觉效果。
超分：通过AI工具提升生成素材的分辨率和帧率，增强画面质量。

技术应用与工具

Midjourney：生成高美学质量的静态图像，适合创意设计和艺术风格较强的图片生成，但细节处理较差。
Stable Diffusion：开源图像生成工具，细节表现好，但审美较弱。
ComfyUI：AI生成工具的工作流管理器，支持复杂节点搭建，功能强大但操作复杂。
Suno：AI音乐生成工具，适合生成背景音乐和配乐，但对中文处理不够准确。
Flux：高美学要求的静态图像生成工具，底层数据丰富，但本地部署复杂。
Hugging Face：AI模型和技术的开源平台，资源丰富，适合开发者和研究者。

创作问题与挑战

抽卡/Roll图：AI影像产出存在随机性，需反复生成和微调提示词。
崩坏/崩了/鬼畜：生成结果出现异常或怪诞内容，如人物变形、主题偏离等。
PPT动画：AI生成的视频出现违和的慢动作内容。
油腻：生成的影像油画质感或数字感过于突出，AI感明显。
手搓：通过人工操作和软件工具从头开始制作AI影像作品。
肝片：长时间熬夜工作完成AI影像创作，对健康有影响。
水片：短时间内快速完成的AI影像作品，内容质量不高。
平A：测试目的随便生成的视频。
以赛代练：通过参加AI影像创作比赛提升技艺和交流经验。

未来发展

AI影像创作技术将持续发展，未来将更加注重多模态融合、模型优化和创作工具的易用性，推动AI影像创作的普及和应用。

AI影像创作者手册引言 AI生成影像的发展历史与原理 AI 影像创作工具的基础功能提示词 = 主体 ( 主体描述 )+ 运动 + 场景 ( 场景描述 )+( 镜头语言 + 光影 + 氛围 ) AI 影像创作的具体流程 AI 影像创作的问题与惊喜 AI 影像创作的未来发展附录工作流：指 AI 影像创作中的一整套流程或管线，类似于传统影视制作中的流程管理。在实际应用中，通常需要通过多个 AI 工具的协同工作来实现预期效果，工作流的设计旨在串联不同 AI 模块，生成复杂且可控的作品。多模态：多模态 AI 是指通过整合多种模态（如文本、图像、声音等）来提高人工智能系统的理解和处理能力。T�V、I�V、V�V：分别代表了文生视频、图生视频、视频生视频（通常是风格转换）。提示词 /Prompt：在自然语言处理（NLP）和人工智能对话系统中，提示词 /Prompt 指的是用来引导或激发系统产生特定反应的输入性文本。在利用 AI 影像创作工具生成内容的时候，提示词工程是优化生成结果的关键技术之一，创作者们往往需要精心设计提示词来控制 AI 生成符合设想风格、类型、主题、质量的内容。正向词 / 负向词：顾名思义，正向词即是与想要生成内容表意一致的提示词，负向词则是不希望 AI 生成结果中出现的，需要 AI 尽可能去规避的意思文本提示词。目前内容的时候，负向提示次可以一定程度上规避。但不能百分百确保完全不发生。大模型幻觉（Large Model Hallucination）：该词指的是在自然语言处理（NLP）领域中，大型预训练语言模型在生成内容时，产生与事实不符或逻辑上不一致内容的现象。这种现象通常是由于模型在训练过程中接触到了大量数据，但这些数据中可能包含错误信息、不完整信息或噪声，导致模型在生成文本时“幻想”出一些不存在或不准确的内容。垫图 / 喂图：在生成 AI 影像时，创作者可以向 AI 工具输入符合想法条件的图片作为控制条件，让其进行参考，以便生成更符合需求的视觉内容。风格化：指通过提取现有艺术作品中的风格特性，利用 AI 工具进行分析和生成，使得生成的作品在视觉上与原作保持相似的风格特征。该技术允许创作者在 AI 创作中模拟不同的艺术风格。转绘：指通过 AI 将实拍内容逐帧重新绘制为不同的艺术风格或其他表现形式。该技术允许创作者将现实场景转换为风格化的视觉作品。深度图：即 Depth map，用于描述图像中物体的远近关系。通过黑白影像形式展现深度信息，深度图可帮助AI 生成工具精确控制生成图像中的空间关系，确保图像的立体感和透视效果。抽卡/Roll图：由于AI影像的产出存在随机性和不确定性，在输入提示词之后，创作者需要反复生成图片或视频，并在这个过程中进行提示词微调，从而得到理想的结果。这就像在卡牌游戏中抽卡一样，也很像传统影视拍摄现场中摄像机持续工作取景（Keep Rolling）的状态，于是便出现了抽卡或者Roll图这样的常用词。炼丹：在AI生成影像的工作流程中，模型训练的过程被称为“炼丹”。针对特定角色或风格的生成，经常需要由“炼丹师”训练微调模型（如Lora模型），以更好地控制生成的内容效果。角色一致性：在影像创作过程中，控制AI随机性以保证角色外观、形态、衣着等元素的一致性非常重要。角色一致性指通过各种技术手段控制AI生成的角色外观与特征的稳定性，特别是在剧情类和广告类AI作品中，保证角色的一致性至关重要，但目前实现这种效果仍具有一定难度。镜头控制：指在影像创作过程中对镜头的操作与管理，包括镜头的稳定固定、推进以及拉远等手段。有效的镜头控制有助于增强视觉叙事效果和影像的连贯性。局部重绘：使用AI工具进行创作的过程中，创作者们常常需要对生成内容的局部进行调整或重新绘制，以达到理想的效果。这一过程被称为局部重绘，通常用于修正或优化生成影像的局部细节。超分：即超分辨率技术，指通过AI工具将原始生成素材的分辨率提升至�K或更高，同时提高帧率，增强画面细节和质量。 Wav�lip：是一种通过音频驱动人物口型的技术。该技术基于开源算法，能够根据音频内容生成与其对应的嘴部动作，在AI剧情类作品的制作中具有重要应用价值。崩坏/崩了/鬼畜：当AI影像的生成结果出现异常或者怪诞的内容，例如人物变形、主题偏离、动作扭曲、画面溶解、脱离视觉逻辑等，就可以用这些词来形容。 PPT动画：有时AI生成的视频会出现看起来十分违和的慢动作内容，这种不自然、均匀的动作会被称为PPT动画。油腻：指生成的影像油画质感或者数字感太明显，导致AI感过于突出。手搓：通过人工操作和各种软件工具，从头开始一步步制作AI影像作品。肝片：指创作者长时间熬夜、不间断地工作以完成AI影像创作。由于熬夜损伤健康，特别是对肝脏有影响，因此这一过程被形象地称为“肝片”。水片：指在短时间内（如一小时内）快速完成的AI影像创作，这种作品的内容往往禁不起推敲。平A：处于测试目的随便生成一些新的视频。以赛代练：AI影像创作领域有很多比赛，创作者们参加比赛做片子既可以与同行交流、挑战自我，又可以趁机联系，提升技艺。 �. Midjourney 用途：用于生成高美学质量的静态图像，适合创意设计和艺术风格较强的图片生成。优点：审美效果突出，生成的图像美感极高，特别适合写实风格的短片制作。缺点：细节处理较差，一些特定风格（如粘土风、毛毡风）较难生成，缺少精准控图工具如ControlNet。 �. Stable Diffusion 用途：开源的图像生成工具，适合需要高细节表现的图像生成场景。优点：细节表现好，尤其在使用ControlNet等插件时效果提升明显，社区资源丰富。缺点：审美较弱，如果不使用复杂工作流，生成效果参差不齐。 �. ComfyUI 用途：AI生成工具中的工作流管理器，支持复杂节点的搭建，用于精准控图和实现复杂的图像生成任务。优点：能够实现各种精准控图，适合复杂的生成任务和工作流搭建，功能强大且开源。缺点：节点流程复杂，需要用户有较强的技术背景，部署和操作较为繁琐。 �. Suno 用途：AI音乐生成工具，支持生成背景音乐、完整歌曲和相似曲目。优点：音乐生成功能强大，特别适合生成BGM和配乐。缺点：对中文的处理不太准确，容易在歌词和发音上出现错误。 �. Flux 用途：类似于Midjourney的生图工具，适合高美学要求的静态图像生成。优点：底层数据丰富，有潜力作为Midjourney的替代品。缺点：本地部署复杂，需要安装大量插件，操作起来相对繁琐。 �. Hugging Face 用途：AI模型和技术的开源平台，提供下载模型及技术体验，适合开发者和研究者使用。优点：资源丰富，支持快速体验各种AI技术，社区活跃。缺点：部分复杂功能体验速度较慢，特别是在功能复杂的场景下，响应速度不如商业工具。

点击免费查看完整报告

2024年AI影像创作者手册

AI影像创作者手册总结

引言

核心功能与原理

创作流程与工作流

技术应用与工具

创作问题与挑战

未来发展

你可能感兴趣

2024年港股18A生物科技行业洞察报告：AI医学影像赛道现状分析及企业挖掘：AI赋能，推动影像行业高质量发展

巨量算数产品应用手册——内容创作者篇

抖音知识创作者手册

抖音知识创作者手册

精细运营撬动百万GMV交易创作者直播爆量实战手册

《抖音知识创作者手册》

2024年AI面试实践手册

2025百家号 AIGC创作者生态白皮书共赴AI创作的星辰大海

计算机行业点评报告：Roblox：创作者生态与AI驱动增长，平台活跃度与预订量再创新高

美图大涨点评：全面拥抱 ToB 端 AI 工具软件，创作者经济工具软件有望迎来

2024年AI影像创作者手册

你可能感兴趣

2024年港股18A生物科技行业洞察报告：AI医学影像赛道现状分析及企业挖掘：AI赋能，推动影像行业高质量发展

巨量算数产品应用手册——内容创作者篇

抖音知识创作者手册

抖音知识创作者手册

精细运营撬动百万GMV交易创作者直播爆量实战手册

《抖音知识创作者手册》

2024年AI面试实践手册

2025百家号 AIGC创作者生态白皮书 共赴AI创作的星辰大海

计算机行业点评报告：Roblox：创作者生态与AI驱动增长，平台活跃度与预订量再创新高

美图大涨点评：全面拥抱 ToB 端 AI 工具软件，创作者经济工具软件有望迎来

2025百家号 AIGC创作者生态白皮书共赴AI创作的星辰大海