AI影像创作者手册 引言 AI生成影像的发展历史与原理 AI 影像创作工具的基础功能 提示词 = 主体 ( 主体描述 )+ 运动 + 场景 ( 场景描述 )+( 镜头语言 + 光影 + 氛围 ) AI 影像创作的具体流程 AI 影像创作的问题与惊喜 AI 影像创作的未来发展 附录 工作流:指 AI 影像创作中的一整套流程或管线,类似于传统影视制作中的流程管理。在实际应用中,通常需要通过多个 AI 工具的协同工作来实现预期效果,工作流的设计旨在串联不同 AI 模块,生成复杂且可控的作品。多模态:多模态 AI 是指通过整合多种模态(如文本、图像、声音等)来提高人工智能系统的理解和处理能力。T�V、I�V、V�V:分别代表了文生视频、图生视频、视频生视频(通常是风格转换)。 提示词 /Prompt:在自然语言处理(NLP)和人工智能对话系统中,提示词 /Prompt 指的是用来引导或激发系统产生特定反应的输入性文本。在利用 AI 影像创作工具生成内容的时候,提示词工程是优化生成结果的关键技术之一,创作者们往往需要精心设计提示词来控制 AI 生成符合设想风格、类型、主题、质量的内容。 正向词 / 负向词:顾名思义,正向词即是与想要生成内容表意一致的提示词,负向词则是不希望 AI 生成结果中出现的,需要 AI 尽可能去规避的意思文本提示词。目前内容的时候,负向提示次可以一定程度上规避。但不能百分百确保完全不发生。 大模型幻觉(Large Model Hallucination):该词指的是在自然语言处理(NLP)领域中,大型预训练语言模型在生成内容时,产生与事实不符或逻辑上不一致内容的现象。这种现象通常是由于模型在训练过程中接触到了大量数据,但这些数据中可能包含错误信息、不完整信息或噪声,导致模型在生成文本时“幻想”出一些不存在或不准确的内容。 垫图 / 喂图:在生成 AI 影像时,创作者可以向 AI 工具输入符合想法条件的图片作为控制条件,让其进行参考,以便生成更符合需求的视觉内容。 风格化:指通过提取现有艺术作品中的风格特性,利用 AI 工具进行分析和生成,使得生成的作品在视觉上与原作保持相似的风格特征。该技术允许创作者在 AI 创作中模拟不同的艺术风格。 转绘:指通过 AI 将实拍内容逐帧重新绘制为不同的艺术风格或其他表现形式。该技术允许创作者将现实场景转换为风格化的视觉作品。 深度图:即 Depth map,用于描述图像中物体的远近关系。通过黑白影像形式展现深度信息,深度图可帮助AI 生成工具精确控制生成图像中的空间关系,确保图像的立体感和透视效果。 抽卡/Roll图:由于AI影像的产出存在随机性和不确定性,在输入提示词之后,创作者需要反复生成图片或视频,并在这个过程中进行提示词微调,从而得到理想的结果。这就像在卡牌游戏中抽卡一样,也很像传统影视拍摄现 场中摄像机持续工作取景(Keep Rolling)的状态,于是便出现了抽卡或者Roll图这样的常用词。 炼丹:在AI生成影像的工作流程中,模型训练的过程被称为“炼丹”。针对特定角色或风格的生成,经常需要由“炼丹师”训练微调模型(如Lora模型),以更好地控制生成的内容效果。 角色一致性:在影像创作过程中,控制AI随机性以保证角色外观、形态、衣着等元素的一致性非常重要。角色一致性指通过各种技术手段控制AI生成的角色外观与特征的稳定性,特别是在剧情类和广告类AI作品中,保证角色的一致性至关重要,但目前实现这种效果仍具有一定难度。 镜头控制:指在影像创作过程中对镜头的操作与管理,包括镜头的稳定固定、推进以及拉远等手段。有效的镜头控制有助于增强视觉叙事效果和影像的连贯性。 局部重绘:使用AI工具进行创作的过程中,创作者们常常需要对生成内容的局部进行调整或重新绘制,以达到理想的效果。这一过程被称为局部重绘,通常用于修正或优化生成影像的局部细节。 超分:即超分辨率技术,指通过AI工具将原始生成素材的分辨率提升至�K或更高,同时提高帧率,增强画面细节和质量。 Wav�lip:是一种通过音频驱动人物口型的技术。该技术基于开源算法,能够根据音频内容生成与其对应的嘴部动作,在AI剧情类作品的制作中具有重要应用价值。 崩坏/崩了/鬼畜:当AI影像的生成结果出现异常或者怪诞的内容,例如人物变形、主题偏离、动作扭曲、画面溶解、脱离视觉逻辑等,就可以用这些词来形容。 PPT动画:有时AI生成的视频会出现看起来十分违和的慢动作内容,这种不自然、均匀的动作会被称为PPT动画。 油腻:指生成的影像油画质感或者数字感太明显,导致AI感过于突出。 手搓:通过人工操作和各种软件工具,从头开始一步步制作AI影像作品。 肝片:指创作者长时间熬夜、不间断地工作以完成AI影像创作。由于熬夜损伤健康,特别是对肝脏有影响,因此这一过程被形象地称为“肝片”。 水片:指在短时间内(如一小时内)快速完成的AI影像创作,这种作品的内容往往禁不起推敲。 平A:处于测试目的随便生成一些新的视频。 以赛代练:AI影像创作领域有很多比赛,创作者们参加比赛做片子既可以与同行交流、挑战自我,又可以趁机联系,提升技艺。 �. Midjourney 用途:用于生成高美学质量的静态图像,适合创意设计和艺术风格较强的图片生成。优点:审美效果突出,生成的图像美感极高,特别适合写实风格的短片制作。缺点:细节处理较差,一些特定风格(如粘土风、毛毡风)较难生成,缺少精准控图工具如ControlNet。 �. Stable Diffusion 用途:开源的图像生成工具,适合需要高细节表现的图像生成场景。优点:细节表现好,尤其在使用ControlNet等插件时效果提升明显,社区资源丰富。缺点:审美较弱,如果不使用复杂工作流,生成效果参差不齐。 �. ComfyUI 用途:AI生成工具中的工作流管理器,支持复杂节点的搭建,用于精准控图和实现复杂的图像生成任务。优点:能够实现各种精准控图,适合复杂的生成任务和工作流搭建,功能强大且开源。缺点:节点流程复杂,需要用户有较强的技术背景,部署和操作较为繁琐。 �. Suno 用途:AI音乐生成工具,支持生成背景音乐、完整歌曲和相似曲目。优点:音乐生成功能强大,特别适合生成BGM和配乐。缺点:对中文的处理不太准确,容易在歌词和发音上出现错误。 �. Flux 用途:类似于Midjourney的生图工具,适合高美学要求的静态图像生成。优点:底层数据丰富,有潜力作为Midjourney的替代品。缺点:本地部署复杂,需要安装大量插件,操作起来相对繁琐。 �. Hugging Face 用途:AI模型和技术的开源平台,提供下载模型及技术体验,适合开发者和研究者使用。优点:资源丰富,支持快速体验各种AI技术,社区活跃。缺点:部分复杂功能体验速度较慢,特别是在功能复杂的场景下,响应速度不如商业工具。