一人動畫公司不是夢!揭密 AI 動畫完整製作流程 ~ 從發想到影片生成一條龍實作教學!
By PAPAYA 電腦教室
Summary
Topics Covered
- Nano Banana解决角色一致性瓶颈
- Moodboard省去重复风格设定
- Freepik整合多AI模型节省订阅
- Higgsfield多模型优选嘴型同步
- Topaz Video提升AI动画至4K
Full Transcript
嗨,大家好 今天要和大家分享 如何用 AI 从零开始创作出一部完整的动画 完成的作品 你可以在影片下方的说明栏找到它的连结 那任何一个动画的起点 都是你要先有一个好的故事 如果你只有一些很零散的想法 也没有关系 你可以借助 ChatGPT 或 Gemini 等 与它们来回讨论
一起激荡出故事的雏形 当故事有个大概的轮廓之后 我会建议先从角色的概念设计 开始着手 因为这么做 可以让我们先确立整部动画的艺术风格 同时也能让故事里的人物形象更加鲜明立体 使后续的剧情发展更容易去构思 那在角色外观的设计上 我们主要是使用 Midjourney 虽然 Midjourney 在控制影像细节方面
仍不是很精确 但它呈现的艺术风格 仍是许多同类型的工具难以比拟的 而在实际操作时 我们可以直接把整理好的故事情节 提供给 ChatGPT 请它根据故事中角色的性格特质 量身打造其外貌的特征 然后我们就可以把第一位角色 也就是主角 Mia 的提示词拷贝下来
当然你也可以直接用 ChatGPT 或 Gemini 来生成影像 只是它们在处理画面的艺术美感上可能会较为逊色 毕竟它们的核心能力并不在于视觉艺术的创作 好,所以我们就来到 Midjourney 的网站 来把 ChatGPT 写好的提示词贴上 你可以打开右侧的选单 做一些图片的基本设定 譬如影像的宽高比
我将它设为 1:1 的正方形 此外 Midjourney 前阵子推出了一个很实用的「风格探索」功能 让用户可以快速浏览各式各样的绘图风格 你可以在右上角输入关键字 譬如 Anime (动画) 来进行快速的筛选 如果有看到喜欢的艺术风格 只需点击 Try Style 系统就自动会将该风格套用到提示词
并生成相应的图片 除此之外 你也可以从社群创作的作品中寻找灵感 譬如这里我使用 3D Animation 的关键字 找到一张自己喜欢的图片范例 并且将它拖曳到 Style Reference (风格参考) 的栏位 再结合提示词一同送出 如此 Midjourney 就会参考其风格 生成全新的角色视觉图啰 好,那接下来我们可以考虑为这个角色
生成更多不同角度和表情的图片 尤其你的工作流中 如果需要用到 AI 来训练一个角色的话 充足的参考图片可以让训练的结果更加稳定 好,所以这边我用到一个功能 叫做 Omni Reference (全域参考) 基本上就是告诉 Midjourney 请它「牢牢记住这个角色的长相」 然后再把刚才那张用来定义画风的图片 拉到 Style Reference 的栏位
按下 Enter 键送出 好,那你会发现即使我们用了 Omni Reference 的功能 产生出来的角色外观还是有些微的出入 这个基本上是 Midjourney 甚至过去所有图片生成 AI 的共同弱点 也就是难以维持角色在不同画面的一致性 不过这个技术瓶颈 前阵子被 Google 一个叫做 Nano Banana 的 AI 模型给克服了
在业界引起相当大的轰动 基本上我们只需提供 Nano Banana 一张角色的参考图 无论是生成不同的表情或姿势 它都能维持极高的角色连贯性 所以我们可以重复这个步骤 继续生成故事中的男主角 Pixel 并且把要用来定义画风的图片再次拖曳到上方 以维持艺术风格的统一 图片生成完毕后
建议可以将它执行 Upscale (放大) 简单来说就是让 Midjourney 生成一个解析度更高的版本 执行这个步骤的好处 是之后图片转移到 Gemini 进行修改时 Nano Banana 能取得更高品质的原始图片 有助于生成更理想的结果 最后我们再以同样的方式 把故事中剩下的两个角色 也就是 Mia 的妈妈
以及 Nokia 精灵的概念图一并制作出来就 OK 啰 好,所有角色概念图都备齐后 接着我们就要进入下一个关键的阶段 即制作「分镜图」 所谓「分镜图」就像是电影或动画的草稿 它会用连续画格搭配文字的说明 规划出故事中最关键的场景与镜头安排 而在 AI 动画的制作流程中
分镜图的设计至关重要 因为它们将会被当成每个动画片段的「起始影格」 好,所以这里我们就请 ChatGPT 详细标示出每个场景的地点 角色的表情与动作 以及相关的对白 这些资讯将有助于我们生成每个必要的动画片段 最后组合成一部流畅且连贯的动画作品 好 ChatGPT 提供给我们的分镜脚本中
前两个分镜是用来交代故事发生的地点 分镜 1 是整个小镇的鸟瞰图 而分镜 2 是 Mia 居住的公寓外观 这两张图如果我们直接都在 Midjourney 生成 有可能会造成小镇的建筑风格 跟 Mia 的住家外观对不上 造成不连贯的感觉 因此这里我们可以改变一下策略 就是让 ChatGPT 先针对第二个镜头 也就是公寓的外观
生成对应的 Midjourney 提示词 并且把提示词贴到 Midjourney 的网站 按下 Enter 键送出 接着我们再从四张图片中选一张自己比较喜欢的 按下 Upscale 来生成一个高解析的版本 最后再把这张图片下载到自己的电脑 那接下来就轮到 Nano Banana 登场的时刻了 除了在 Gemini 网站使用它之外
你也可以透过 Google AI Studio 来进行操作 那有别于 Midjourney Nano Banana 对于中文有很出色的理解能力 所以我们可以直接用中文来下达指令 例如变更构图 转换视角 甚至增加或移除画面中的物体等 那比起 Gemini 的网站 Google AI Studio 提供了一个更具弹性的编辑环境 例如生成的图片如果不如你的预期
你可以删除该次回应 返回到上一个步骤重新再来一次 借由持续和 Nano Banana 进行对话 我们就能一步步将图片修改成心目中想要的样子 譬如将视角改成空拍图 甚至将视角再拉远一点 使街道呈现斜向的交错等 不过需要注意的是 使用 Nano Banana 生成的图片 右下角会带有浮水印
对此我们可以用 Photoshop 这类型的影像处理工具 来将浮水印擦除掉就 OK 啰 好,那接下来分镜 3 和分镜 4 的地点 换到了 Mia 的卧房和他们家的地下室 同样地如果用 Midjourney 直接生成这两个分镜 可能会有角色不一致的问题 因此较稳健的作法 是将「背景」和「人物」分开处理 也就是用 Midjourney 生成高品质的背景图
再使用 Nano Banana 将人物合成进去 好,所以我们就让 ChatGPT 帮忙撰写每个分镜的背景提示词 并且将描述 Mia 卧房的部分拷贝下来 由于分镜的数量很多 如果每个镜头都要手动指定风格参考图 (Style Reference) 整个流程会变得很繁琐 因此我们可以考虑在 Midjourney 建立一个 Moodboard (风格画板) 它的用法非常简单
你可以收集一些类似画风的图片 譬如这些是用 Nano Banana 修改原角色图所产生的图档 我把它们全部上传到 Moodboard Midjourney 就会分析这些图片的视觉元素 变成一个风格范本 而这时当我们想要生成 Mia 的卧房时 你只需开启「个人化」的选单 来勾选刚才建立的 Moodboard 然后按下 Enter 键送出提示词
如此 Midjourney 就会自动套用这个风格来进行创作 省去重复设定 Style Reference 的麻烦 好,那我们就再次回到 Google AI Studio 来完成分镜合成的步骤 提示词我就写一个女生 坐在书桌前使用电脑 不过这边有个细节非常关键 就是图片上传的「顺序」 如果我们先上传卧房的场景 再上传 Mia 的正面照
你会发现 Nano Banana 生成的影像 将会是 1:1 的正方形 这是因为 Nano Banana 在合成图片时 会以最后一张上传图片的长宽比 作为最终输出的尺寸 因此正确的操作流程应该是要反过来的 也就是先上传 Mia 的角色参考图 接着再上传卧房的影像 唯有照着这个顺序 才能确保合成的结果
能维持 16:9 的电影画面比例 好,为了增加画面的叙事感 我打算在下一个镜头 安插 Mia 专注使用电脑的脸部特写 不过单从这个画面 Nano Banana 并不知道这个侧影就是 Mia 如果我们直接送出提示词 AI 可能会生成一张完全无关的脸孔 为了解决这个问题 我们需要提供一个所谓的「视觉提示」(Visual Prompt)
来建立角色与场景之间的关联 你可以选一个自己习惯使用的白板或绘图工具 譬如这里我用 Figma 来进行操作 你只要将两张图片依序拖曳到 Figma 的画布 并且从底部启用「箭头工具」 从 Mia 的特写图拉一个箭头 指向书桌前的侧影 这样 Nano Banana 就会知道这两者是同一个人
最后我们再同时选取画布中的所有物件 按下 Ctrl+G 将它们组成一个群组 然后到侧边栏底部 将这个群组汇出成一个 PNG 的图档 而这时我们再回到 Google AI Studio 将这张参考图 配合提示词一同送出给 Nano Banana 时 它就能顺利生成 Mia 的脸部特写图 不过要注意 Nano Banana 输出的图片解析度并不高
直接拿来制作动画的话 会导致最终成品的画质不够理想 对此你可以使用一些 AI 影像放大工具 像是 Upscayl 它是一个免费开源的软体 使用它时我们只需把分镜图拖曳到 Upscayl 的介面 并且点击左下角的放大按钮 这样 Upscayl 就会生成一个高解析的版本啰 好,那我们手上已有了几张制作好的分镜图
而接下来我们就来谈一下 如何把它们转换成流畅的动画 目前主流的 AI 动画生成方式 大致上可分为三种 第一种 也是最单纯的模式 叫做 Text to Video 顾名思义就是完全靠文字描述来生成影片 使用这个模式 AI 可以拥有最大的创作自由度 但用户对于画面的控制力也是最低的
那第二个模式是 Image to Video 在这个模式下 我们需要提供 AI 一个「起始影格」 然后用文字提示来引导 AI 产生动态的效果 很适合已准备好静态美术图的使用者 至于最后一种是 Video to Video 比较具代表性的就是 Runway 的 Act-Two AI 模型 它的特色是用户需要提供一张角色参考图
以及一段由真人演出的影片 如此 AI 就会分析影片中人物的动作 并映射到角色的参考图 使创作者无需投资昂贵的动态捕捉设备 也能实现专业级的动画效果 好,那目前市场上能制作 AI 动画的平台可说是琳琅满目 包含先前我们用来生成角色概念图的 Midjourney 在不久前也加入了制作影片的功能
我们只需提供它一张图片作为影片的起点 然后在上方输入提示词 如果提示词的栏位维持空白的话 Midjourney 就会自动分析影像内容并生成动画 如此就能轻松制作出空中俯瞰移动的动画效果 当然市面上还有许多其他广受欢迎的 AI 影片生成模型 像是 Google 推出的 Veo 以及 Seedance
Hailuo 和 Kling 等 这些模型各自拥有不同的强项与特色 只是对于一般使用者来说 若要分别订阅这些 AI 模型的服务 费用将会相当可观 因此市面上现在有一种新兴的整合服务 就是用户只需支付单一的订阅费用 就能在同一个平台使用多种不同的 AI 模型 那其中一个很受欢迎的平台是 Freepik
它原本是一家知名的图库公司 现在也将服务扩展到 AI 生成的领域 Freepik 的操作相当简单直观 我们可以从侧边栏的 AI 选单中 找到并进入「影片生成器」的页面 然后我们就可以把先前制作好的分镜图拖曳进来 当成是动画的起始影格 那旁边还有一个「结束影格」的栏位 代表我们还可以放入第二张图片
表示我们希望 AI 能在两张图之间 创造出一段流畅且自然的过渡动画 如果你想要知道我们有哪些 AI 模型可以选择 你只要点开上方的选单 就能看到每个 AI 模型的名称和功能简介 像是生成一次会消耗多少的点数 以及该模型能生成的解析度大小等 最后我们可以在底部的位置设定影片的长度
例如 8 到 10 秒 以及影片的宽高比 一切设定就绪后 只要按下「生成」按钮 那么一个从公寓外观 过渡到 Mia 房间的流畅动画就顺利产生啰 好,目前 AI 生成的影片 一个片段时长大多是落在 6 到 10 秒之间 如果你希望影片能再长一些 主要有两种作法 第一是使用平台内建的延长功能
以 Freepik 为例 在介面右下角你可以找到一个「延长」按钮 能自动延长当前的动画片段 如果你使用的平台没有「延长」的选项 那么你可以用第二种方式 就是利用网路上的一些小工具 将现有影片的最后一个画格撷取出来 变成一个图档 然后将这个图档拉回到「起始影格」的栏位内 用它来生成下一段的动画
透过这样的操作 一样能达成延长动画的效果喔 好,我们继续来看下一个分镜 这个分镜是 Mia 的妈妈 请她帮忙搬一个纸箱到地下室 同样地 第一步我们可以先到 Midjourney 生成楼梯间的背景图 如果你想碰碰运气 也可以试着把 Mia 妈妈的概念图 拉进 Omni Reference 的栏位
看看 AI 是否能一次就生成我们想要的镜头 好,那我觉得左上角这张图的背景 很适合拿来当成初始草图 虽然妈妈的造型跟原图有些差异 但没有关系 我们可以把这张图先下载到电脑 然后打开 Freepik 的「图像生成器」 那要注意即使在 Freepik Nano Banana 生成的解析度 仍会受到图片上传顺序的影响
所以如果想维持 16:9 的宽高比 我们得先上传 1:1 比例的妈妈正面图 接着再上传 16:9 的楼梯场景图 那你会注意到 Freepik 有替这两个图档各自添加了一个标签 代表我们可以在提示词内 直接引用这些图片 精确指示 Nano Banana 应该要如何修图 至于 AI 模型的部分 除了选择 Google Nano Banana 之外
你也可以选择近来在社群中评价很高的 Seedream 两者都能维持图片中角色的一致性 值得一提的是 在 Freepik 使用 Nano Banana 的话 生成好的图片角落不会有浮水印 让用户可以省去后制处理的麻烦 好,善用 Freepik 图像参考的功能 可以协助我们将心中的想法更精确地传达给 AI 举例来说
假设你想要让 Mia 做出特定的动作 你可以在网路上先找一张符合需求的姿势参考图 然后将这两张图片一同上传到 Freepik 而这时我们就能利用图片标签 明确指示 AI 将 Mia 的外观套用到参考图上面 如此就能轻松制作出符合预期的画面啰 好,Freepik 有个很方便的地方
就是它本身有内建「视觉提示」的功能 这个功能允许我们在既有的图片上进行标记 来指示 AI 在特定区域进行修改或添加物件 使用时你只需切换到「视觉素材」的标签 并且用滑鼠点击你想要修改的位置 譬如在 Mia 的床上放一只泰迪熊 最后再按下 Enter 键送出指令就 OK 了
那 Freepik 本身也有内建图片放大的功能 因此对生成好的图片 我们只需到底部点击「提升画质」的按钮 并指定放大的倍率 例如 2 倍 如此系统就会自动生成高解析的版本 让我们无须安装像 Upscayl 这类型的影像放大软体 好,所以基本上我们就是重复这个流程 也就是利用 Midjourney 生成主要的视觉图
再交由 Nano Banana 进行构图微调和角色的合成 透过这个模式 我们就能完成动画所需的所有分镜 好,那接下来我们来谈一下动画角色的配音 以 AI 语音生成的领域来说 目前表现最出色的平台首推 ElevenLabs 以动画的女主角 Mia 为例 如果想要找到符合其人物形象的声音
我们可以到 ElevenLabs 的声音库内启用筛选器 例如语言的部分你可以选择中文或英文等 甚至你还可以在旁边的选单指定特定的口音 至于声音的类别我选择「角色与动画」 并且将性别和年龄分别设为「女性」和「年轻」 如此系统就会列出所有符合条件的 AI 语音模型 那你可以直接用滑鼠点击
来试听每个声音的实际效果 (你就在这里) (跪在地上) (用那恳求的眼神望着我) 如果感到满意的话 只要按下右方的 + 号 就能将它收藏到个人的声音库中 以利后续使用 至于 Mia 的妈妈和男主角 Pixel 你也可以用同样的方式来寻找合适的声音模型喔 好,除了从现有的声音库中进行挑选
ElevenLabs 还提供了声音设计的功能 让使用者可以创造出独一无二的声线 举例来说 如果我想要为动画中的「Nokia 精灵」 打造一个专属的声音 你可以输入「活泼明亮、带有戏剧化张力」之类的描述 然后点击「产生」 不到一会儿 ElevenLabs 就为这个角色 创造出一个量身订制的声线啰 哦,你好啊
真巧在这片林子里遇见你 好,当所有角色的声音都收藏或建立完毕后 我们可以在 My Voices (我的声音) 的页面中找到它们 为了方便管理 你可以利用右侧的选单 为每个声音进行重新命名 譬如直接标示为角色的名称 使其一目了然 而如果要生成特定角色的台词 你只需点击「使用声音」
系统就会自动切换到语音合成的介面 在这里你可以把预先写好的脚本台词贴上 例如动划开场时 Mia 的自我介绍 点击「产生」 ElevenLabs 一次会生成两个版本 供你做对比和选择 我们来试听看看 我的名字叫米雅 我今年 16 岁 我超级内向又很怕生
好,如果你觉得生成的音讯档不符合你的需求 你可以点击「重新生成」来取得新的版本 好,我们再来看下一个分镜的配音 在这个场景中 Mia 的妈妈请她帮忙将纸箱搬到地下室 所以声音模型的部分 我们要切换成 Mia 的妈妈 再将对应的台词贴到文字编辑区内 点击「产生」 好,我们来试听一下
米雅 ~ 来帮我把这个纸箱搬到地下室好吗?
OK,虽然这段语音在内容上没有问题 但是并没有一个人从楼下对楼上呼喊的感觉 因此这边我们要到底部点击 Enhance (强化) ElevenLabs 会自动分析这段对白 来为它添加「呼喊」的语气标签 好,我们再听一次 米雅,过来帮我把这个纸箱搬到地下室好吗?
OK,那这次的语音就明显带有呼喊的效果啰 好,那生成好的音讯档要如何与画面结合 并且让角色的嘴型能与之同步呢?
首先 Freepik 本身有提供配音的功能来应对这项需求 你可以上传一段影片 或着是图片 作为同步嘴型的素材 而这边我们就直接用先前由 Nano Banana 制作好的角色图像 至于声音来源的部分 Freepik 提供了三种途径 第一是直接输入文字 并进行即时的语音合成
或着你可以连接麦克风进行现场的录音 最后你也可以上传音讯档 譬如刚才我们透过 ElevenLabs 制作的 AI 语音 点击「生成」 好,我们来看看效果 米雅,过来帮我把这个纸箱搬到地下室好吗?
OK,你会发现 Freepik 生成的嘴形动画效果有点差强人意 角色嘴部的动作显得有些僵硬 只是 Freepik 目前并没有提供其它嘴型同步的 AI 模型 如果你想要追求更好的效果 只能另外寻找其它的平台 而近期一个备受瞩目的新选择是 Higgsfield 你可以从 Video 的选单中 找到一个叫做 Lipsync Studio (嘴型同步工作室) 的页面
它的基本操作与 Freepik 相当类似 主要也是透过上传一张静态的角色图片 并搭配一段已制作好的对白音讯档 此外在下方你可以输入一段提示词 它会影响角色的表情变化与肢体动态 而最关键的是 Higgsfield 有提供多种嘴型同步的 AI 你可以透过实际测试来找出最理想的模型
那这边我们就做个快速的比较 首先是原来的 Freepik 米雅 ~ 过来帮我把这个纸箱搬到地下室好吗?
再来是 Infinite Talk 米雅 ~ 过来帮我把这个纸箱搬到地下室好吗?
接着是 Kling 米雅 ~ 过来帮我把这个纸箱搬到地下室好吗?
最后是 Google Veo 3 米雅 ~ 过来帮我把这个纸箱搬到地下室好吗?
整个比较下来 感觉效果比较好的是 Kling 和 Veo 3 不过要注意 Veo 3 的运作模式与其它三个稍有不同 它会在生成影片的同时直接产生语音 而非让用户另外上传音讯档 虽然这看起来非常方便 但也带来一个技术性的问题 就是当我们为同一个角色生成新的动画时 他的声线可能会发生变化
使作品失去了连贯性 而要解决这个问题 我们可以回到 Elevenlabs 来进入 Voice Changer (变声器) 的页面 并且将 Veo 3 生成的影片档拖曳进来 然后我们就可以从侧边栏选取 Mia 妈妈的声音模型 点击「产生」 如此 Elevenlabs 就会把影片中的对白转换为 Mia 妈妈的声线 你可以把它下载下来 再透过影片剪辑软体
来替换掉影片中原有的音讯轨就 OK 了 好,理解了前面介绍的工具和技巧之后 接下来影片中所有的分镜 基本上都可以照着类似的流程来制作 举例来说 你可以透过 Midjourney 生成一张地下室的背景图 再利用 Nano Banana 将 Mia 合成到场景之中 而这张图片又可以拿来当成动画的起始影格 那生成的过程中
你可以尝试使用不同的 AI 模型来生成影片 并且从中挑选出动作最自然流畅的那一个 那像 Mia 遇见 Nokia 精灵的那个片段 作法也非常简单 你只要把 Mia 手持 Nokia 手机的图片设为起始影格 以及精灵现身打招呼的画面作为结束影格 最后再搭配一段描述动作的提示词
就能轻松制作出这个有趣的转场效果啰 好,最后我们来谈一下动画的配乐和音效 同样拜 AI 之赐 现在要制作动画配乐也变得非常简单 首先你可以请 ChatGPT 协助生成一段提示词 告诉它你想要的音乐曲风 例如迪士尼风格的开场配乐 那 ChatGPT 把提示词写好后 我们就把它拷贝下来
前往一个叫做 Suno 的 AI 作曲网站 来把这些提示词贴上 那右下角有一个 Instrumental 的选项 记得要把它开启 确保 Suno 只会生成纯音乐 而不会包含人声 点击「建立」 稍待片刻后 Suno 就会生成两首指定风格的配乐 你可以试听看看 挑选出自己较中意的那一首 把它下载到电脑
甚至你如果想要为动画制作一首 专属的主题曲也没有问题 你可以将故事情节提供给 ChatGPT 请它根据故事内容撰写一首贴合情境的歌词 取得歌词后 我们就再次回到 Suno 的网站 切换到「自订」分页 来将 ChatGPT 写好的歌词完整贴上 曲风的部分就设为「迪士尼风格的流行抒情歌」
然后在进阶设定的区块内 你可以指定主唱是男性或女性 最后再为这首歌取一个你喜欢的名字 点击「建立」 如此一首动听且独一无二的动画主题曲 就成功产生啰 好,那「音效」在动画中也扮演着非常重要的角色 它可以让动画变得更为生动 更有沉浸感 我们除了能在网路上搜寻现有的音效素材之外
也可以试试到 ElevenLabs 的网站 它有一个专门生成音效的页面 你只需输入一些简单的关键字来描述你要的声音 例如 Magic Release (施放魔法) ElevenLabs 一次会生成四个版本 你可以从中挑选一个最适合的 将它下载到电脑 并且汇入到影片剪辑软体内来进行合成 不过在进行剪辑前
建议可以将 AI 生成的影片先进行画质提升的处理 那目前市面上 一般公认效果最好的是 Topaz Video 它是一套订阅制的软体 Topaz Video 的使用方式非常简单 我们只需将 AI 生成的影片档拖曳到操作介面 它就能将影片解析度提升到 4K 甚至也能提升影片的帧率 使动画看起来更加平滑顺畅
值得一提的是 如果你正好是 Freepik Premium+ 方案的用户 这个方案已包含了 Topaz 的画质提升功能 因此可以让你省下一笔额外的订阅开销 而最后所有的影音素材 包含 AI 生成的影片 音乐、对白和音效等 你可以使用自己熟悉的影片剪辑软体 像是 Capcut、Davinci Resolve
或 Premiere Pro 等来进行剪接与合成 那这些软体我在频道中都曾做过介绍 如果你对它们的操作不熟悉 也可以前往参考看看喔 好,那今天关于 AI 动画的介绍 我们就聊到这边 我们下回再见 拜拜
Loading video analysis...