2024 稀土开发者大会 - GenAI 技术实践(下午场)
By 稀土掘金开发者社区
Summary
Topics Covered
- 小红书发布需有趣简单无压力
- 风格定制避二次元疲劳
- 真人生成小脸手部崩坏修复
- VAR自回归从粗到细生成图像
- Design AI平台人效提升400%
Full Transcript
他们 梦想 着 让 AI 无处不在 战胜 疾病 挑战 探寻 更 清洁 、 更 环保 、 更 可靠 的 能源 推进 教育 发展 和 普及 英特尔 是 点燃 创新 的 火种 我们 深信 只要 住 好 根基 所有 梦想 皆 可 实现 新生 无限
AI isn't a tomorrow thing. It's a today thing. And sure, we can ask for answers to life's tough questions. But today, we can also ask it to do tough things, like shift that wood more efficiently, use satellites to reduce methane emissions, turn DNA into code to make drought-resistant corn. Oh,
cool. It can spot and fill potholes, spot disease earlier, to protect Earth. It can create apps with just words and just hours.
Today, Google AI can scan 100,000 lines of code in two minutes to spot and fix bugs. It can translate from code to code and is one step closer to
fix bugs. It can translate from code to code and is one step closer to speaking a thousand languages, even when. Today, AI
impacts lives for the better and understands the world the way you do. Our AI
is a The new way to cloud.
他们 梦想 着 让 AI 无处不在 战胜 疾病 挑战 探寻 更 清洁 更 环保 更 可靠 的 能源 推进 教育 发展 和 普及 英特尔 是 点燃 创新 的 火种 我们 深信 只要 住 好 根基 所有 梦想 皆 可 实现 心 生 无限
AI isn't a tomorrow thing. It's a today thing. And sure, we can ask for answers to life's tough questions. But today, we can also ask it to do tough things, like shift that wood more efficiently, use satellites to reduce methane emissions, turn DNA into code to make drought-resistant corn. Oh,
cool. It can spot and fill potholes, spot disease earlier, to protect Earth. It can create apps with just words and just hours.
Today, Google AI can scan 100,000 lines of code in two minutes to spot and fix bugs. It can translate from code to code and is one step closer to
fix bugs. It can translate from code to code and is one step closer to speaking a thousand languages, even where. Today, AI
impacts lives for the better and understands the world the way you do. Our AI
is a Spots threats seven times faster. Understands speech sentiment.
Helps prevent vision loss. Predicts weather 10 days out in two minutes. Translates thousands of pages in seconds. Detects lead pipes to keep drinking water clean. Eliminates paperwork so cares more human. Generates from text, visuals, audio, and video. Creates entire worlds from your imagination.
more human. Generates from text, visuals, audio, and video. Creates entire worlds from your imagination.
Creates this thing, some bad thing, a new thing. The new way to cloud.
这里 是 那个 西组 开发者 大会 然后 主持 的 那个 JMI 弄 谈 我们 有 上下 两个 半场 然后 上半场 我们 应该 有些 同学 已经 听到 了 非常 精彩 的 一些 分享 我们 下半场 依然 非常 精彩 我们 邀请 到 了 几个 公司 小红书 字节 跳动 的
几个 同学 来 给 我们 去 分享 技术 还有 在 公司 自己 业务 中 的 一些 实践 然后 接下来 我们 就 非常高兴 邀请 我们 第一位 分享者 是 来自 小红书 的 自身 算法 工程师 陈彦琴 帮 我们 去 分享 他们 从 同盟 到 视频 在 自己 小红书 业务 中 的
一些 落地 行 那 我们 有 请 陈彦琴 同学 谢谢 袁 老师 然后 我 是 来自 小红书 的 一名 资深 程序员 然后 以往 的话 都 是 站 在 那个 以往 都 是 坐在 电脑 后边 敲 键盘 然后 今天 第一次 站 到 那个 台 前来 跟 大家 做 这个 分享 特别 的
开心 也 稍微 有点 紧张 然后 我 今天 给 大家 的 分享 分为 4% 第一 part 的话 是 业务 这 一块 就 讲 一下 我们 小红书 平台 是 怎样 一个 平台 第二 part 的话 是 风格 定制 这 一块 的 一个 实践 第三块 的话 是 人 像 定制 这 一块 的 实践 最后 一块 的话 是 展望 和 规划 这 一块
想 问 一下 在座 的 各位 就是 有用 过小红 书 吗 还是 挺 多用户 的 然后 大家 都 是 在 什么 场景 下去 用 的 就 可以 想一想 可能 大家 一般 都 是 在 比如说 想要 查个 什么 攻略 比如说 我 今天 要 去 洛阳 玩去 了 我 今天 要 买个 衣服 怎么 穿 搭 然后 这个 时候 就
会 去 查 我们 小红书 然后 所以 说 一言来 概括 一下 我们 小红书 这个 平台 的话 它 是 一个 一本 生活 的 全书 百科全书 然后 我们 公司 的话 是从 一 开始 非常 小众 的 一个 旅游 攻略 分享 平台 然后 慢慢 发展 来 现在 满足 大众 需求 的 一个 符合 性 平台 所以 从 这个
方面 大家 就可以看 出来 我们 小红书 最 优质 的 一个 资源 就是 咱们 的 优质 内容 是 咱们 公司 最 宝贵 的 一个 资源 那 接下来 我们 看一看 就是 作为 发布 册 的话 作为 我们 公司 发布 的 唯一 入口 发布 册 的 一个 业务 有 怎样 一个 特点 了 就是 首先 的话 我们 分析 一下 作者 的 发布
的 意图 大多 事 情况 的话 是 分享 一个 喜好 爱好 还有 一些 外 在 经历 然后 这部分 的 分享 的话 是 偏向 于 真实 的 第二个 部分 的话 就是 我们 的 那个 作者 的 构成 的话 大多 是 以 女性 为主 女性 的 占 比 是 非常 高 的 然后 第三 部分 的话 就是 对于 创作 的 一个
诉求 都 是 偏向 于 就 希望 内容 制作 特别 精致 然后 创意 要求 比较 高 功绩 的话 希望 足够 简单 就 我 有 一些 朋友 跟 我 吐 槽 就是说 每次 在 小龙 叔发 一个 笔记 压力 都 特别 大 因为 要 看 自己 的 排版 对 不 对 格式 对 不 对 然后 精不 精美 就 不 像 发 一个 朋友圈 或者 发个 微博 那么 的 随意 这样的话 我们 面临 的
发布 测 的 核心 业务 是 怎样 的 了 就是 有 三点 就是 我们 可能 要 让 我们 的 创作 特别 的 有趣 然后 也 要 很 简单 就 不要 让 用户 有 很大 的 发布 压力 第三点 的话 就是 我们 同时 要 控制 一下 发布 这块 的 一个 算力 成本 接下来 就是 我们 看 一下 就 作为 发布 测 的 工具 我们 如何 去 帮助
用户 去 发布 优质 的 内容 呢 就是 在 过往 的 特效 的 时代 的话 比如说 是 GAN 时代 吧 那 时候 大多数 GAN 和 渲染 时代 我们 也 可以 做 一些 特效 比如说 做 一些 性别 换 更换 然后 表情 的 驱动 然后 现在 到 了 扩散 模型 时代 我们 会 有 更 多 的 玩法 比如说 像 AI 绘画 工具 然后 这 一块 的 创作 的话 对于 我们 平台 来说 是
一个 用户 刚需 就 不是 说 单纯 为了 适应 我们 这个 噱头 AIGCI 扩散 模型 这样 的 噱头 去 炫技 就 确实 是 一个 刚需 因为 在 我们 平台 上 创作 形式 的话 是 以 图像 和 视频 为主 的 然后 也 是 年轻人 特别 多 喜欢 尝试 一些 新 的 玩法 然后 在 这块 我们 的 业务 挑战 的话
有 几个 方面 就是 首先 的话 是 要 差异化 定制 一些 风格 然后 要 做到 一些 局部 和 细节 的 生成 特别 完美 因为 我们 的 创作者 还是 都 有 一些 细节 控 的 然后 再就是 要 拓展 比较 多 的 新 的 玩法 那 接下来 我 就 给 大家 分享 一下 我们 背后 这 相关 的 一些 技术 原理
第二 part 的话 就是 风格 定制 这 一块 首先 是从 业务 层面 上 我们 怎么 去 定义 差异化 的 一个 风格 因为 大家 也 知道 我们 现在 风格化 很多 的 时候 是 依赖 一些 开源 社区 比如说 C 站 有 很多 的 开源 模型 然后 这些 风格 的话 它 大多
都 会 集中 在 二次元 特别 容易 引起 一个 神秘 的 疲劳 另外 我们 小红书 对于 这个 细节 的 刚刚 也 提到 了 品质 要求 特别 高 这些 都 是 给 我们 算法 同学 的 一些 挑战 这些 问题 我们 怎么 去 解决 呢 首先 刚 提到 的 神秘 疲劳 这 一块 的话 我们
会 有 一个多 工种 的 合作 就是 产品 运营 还有 设计 这 一块 会 自发 地去 组织 一些 老伴 然后 结合 我们 在内 的 调性 去 进行 一些 产品 的 研发 然后 同时 我们 会 从 多个 垂直 领域 去 做 一个 研发 比如说 像 国风 然后 像 拼贴 风格 然后 包括 像 科技 风格 多个 垂类 去 研发
同时 我们 在 研发 的 过程 中 也 会 特别 注重 这些 细节 比如说 像 人物 背景 还有 很多 的 元素 质感 颜色 然后 这个 页面 上 我 给 大家 展示 了 三款 风格 国风 还有 汉唐 盛景 以及 辅助线 这 三个 就是 比较 差异化 的 风格 比如 像 国风 这个 风格 在 设计 的 时候 就 会
强调 人物 的 纤细 感 然后 颜色 和 质感 的话 会 去 强调 流行 的 那个 插画 风格 然后 还会 有 一些 水墨 的 质感 第二个 风格 像汉塘 圣井 的话 我们 就 会 融入 很多 的 元素 比如 像 动物 这 一块 有鲜鹤 喜鹊 鲤鱼 像 两岸 的 商铺 的话 我们 会 去 设计 很多
元素 像 酒坊 花坊 茶铺 然后 包括 街上 的 商铺 是 怎样 的 有 哪些 元素 我们 的 产品 和 设计 都 会 去 进行 一个 详细 的 设计 第三个 风格 的话 是 辅助线 这个 里面 主要 是 一个 扁平化 的 人物 展示 然后 会 有 一些 科技 的 赛博线 在 里面 这块 说 的 是 就是 产品 维度 上 怎么 去 定义 一个 差异化 的 风格
这 一页 的话 就是 产品 和 运营 定义 出来 了 这些 风格 之后 我们 算法 的 同学 我们 工程 同学 怎么 去 做到 落地 这 一块 的 技术 难点 的话 一个 是 首先 是 研发 效率 就是 我们 可能 会 涉及 到 很多 个 风格 就是 比如说 去年 下半年 我们 可能 一次性 涉及 到 有 十几个 风格 在 同时 研发 然后 这个 时候 怎么 去 做 一个 小 样本 的 定制 研发 降低 大家 的
研发 效率 这 就是 一个 我们 要 面临 的 挑战 第二个 的话 就是 刚刚 提到 了 就是 风格 很多 然后 我们 又 需要 去 差异化 然后 我们 怎么 去 解决 这些 风格 退化 的 问题 如果 它 退化 特别 严重 可能 风格 之间 的 差异性 就 会 特别 小 了 第三点 的话 就是 我们 要 去 打造 很多 细节 和 品质 就是 刚刚 前面 我 也 讲 到 了 就是 我们 的 设计 会 提出
很多 细节 的 要求 笔触 感 画质 对 然后 我们 怎么 把 他们 的 这些 天马 横空 的 想法 给 它 落地 第四点 的话 就是 算法 的 鲁棒性 就是 怎么 在 多个 场景 下 保持 我们 风格 的 一个 一致 关于 这些 技术 难点 的话 我们 算法 的 同学 都 会 有 一些 相关 的 解法 算法
和 其他 公众 的 同学 很多 是 一起 配合 的 第一个 的话 是 流程化 去 处理 就是 我们 的 样本 这 一块 就是 样本 的 收集 它会 有 一个 比如说 我们 会 有 设计 会 去 画 出来 一个 种子 图 然后 会 有 相关 的 标注 的 同学 去 帮忙 去 生成 一些 进行 一些 扩图 然后 筛选 出 优质 的 一个 图片 我们 会 搭建 一套 流程化 的 SOP 流程 去 做 这个
数据 的 一个 生成 这 一块 就 解决 了 一个 流程化 处理 多个 风格 模型 然后 第二个 的话 就是 关于 风格 推化 这 一块 我们 会去 精调 每个 模块 包括 是 SD 的 那个 主 网络 的 各个 参数 包括 CountryLate 包括 还会 写 很多 的 策略 去 以 应对 各种各样 的 情况 第三个 方面 的话 就是 刚刚 提到 了 有 很多 细节 的 打磨 有 的 时候
埃及 森 的 模型 做 不到 那 这个 时候 怎么办 呢 就是 我们 这个 时候 可能 就要 结合 一些 传统 算法 去 做 比如说 像 毛玻璃 特效 呀 一些 滤镜 呀 或者说 再 做 一些 前后 背景 分离 的 一些 处理 最后 的话 就是 刚刚 提到 了 很多 场景 下 我们 怎么 去 做 鲁棒性 那 首先 我们 要 去 进行 一个 场景 的 分析 然后 可能 要分 每个 场景
以及 每个 区域 不同 区域 去 做 不同 的 处理 以此 达到 多个 场景 下来 一个 鲁棒性 然后 右边 这 张图 的话 是 我们 的 一个 美麦 的 风格 可以 看 一下 这个 圆图 然后 第二张 的话 是 优化 前 第三张 的话 是 优化 后 就 可以 看到 这个 树 上面 那个 毛玻璃 的 特效 就是 这个 就是 设计 想要 的 我们 上法 同学 可能 有时候 一眼 可能 看不大 出来
很大 的 区别 但是 设计 的 要求 会 特别 高 非常 的 品质 控 然后 包括 优化 后 的 整个 的 画面 的 质感 会 更好 一点 然后 的话 据 我们 的 业务 结果 的话 是 把 这套 技术 应用 在 了 很多 个 的 特效 模感 包括 底下 的 Y2K 丁达 等 特效 里面 接下来 给 大家 讲 一款 我们 的 一个 涂鸦 生涂 的 产品 可以 先看 一下
左边 的 这个 Demo 它 的 产品 形态 的话 就是 用户 几个 简笔画 很 简单 的 几个 简笔画 画 出来 然后 我们 模型 给 它 生成 出来 一张 很 精美 的 图画 然后 这个 图画 的话 要 符合 用户 的 那个 简笔画 的 一个 结构 然后 以及 它 想 表达 一个 意思 就是 那 这个 里面 需要 有
一些 这个 挑战 然后 就是 产品 的 形态 有 一些 挑战 就是说 我们 就是 如何 去 低 门槛 地去 创作 这样 的 一个 涂鸦 的 一个 产品 第二个 的话 就是 要 去 做到 就是 刚刚 提到 了 就是 那个 怎么 去 做到 我们 生成 的 这个 图片 和 那个 用户 的 那 张 图片
要 有 足够 的 一个 相识 性去 表达出来 用户 想要 表达 的 一个 内容 第三 部分 的话 就是 有 的 用户 可能 是 用 那个 彩笔 去 做 画 的 比如说 像 这个 左边 的 这个 彩 笔画 然后 那 我们 可能 就 还要 去 做到 如何 去 做到 颜色 跟 用户 想要 表达 的 是 一样 的 那 接下来 可以 看 一下 我们 这 一块 的 技术 方案 首先 的话 是 用户 会 输入
对 用户 输入 的 这张 涂鸦 图 我们 会 有 一个 那个 多 模态 的 模型 去 提取 出来 这个 图片 里面 的 内容 信息 然后 对 这个 提取 出来 的 涂鸦 的 一个 描述 的话 我们 会 有 一个 提示 词 的 扩展 描述 模块 然后 去 把 它 完向成 一个 完整 的 prompt 然后 最终 未进 我们 的 扩散 模型 然后 上面 可能 会 挂 一个 Fungalora 出来 最终 的
结果 右边 展示 了 一些 我们 用户 创作 的 这些 都 是从 我们 平台 截取 的 用户 创作 的 一些 效果 接下来 的话 给 大家 讲 一 讲 视频 这 一块 我们 的 一些 产品 首先 的话 是 《 延伸 AI 世界 》 这 一款 产品 它 的 产品 形态 的话 是 用户 输入 一张 图片 然后 我们 给 它 申请 一段 精美 的 视频 可以
先看 一下 左边 的 这个 Demo 这个 产品 的话 它 的 产品 的 设计 是 这样 的 就是 产品 车会 给 出来 一个 主题 比如说 这个 可能 是 一个 古风 的 主题 然后 会 根据 这个 主题 去 设计 一个 故事 线 故事 线 里面 可能 会 有 比如说 有 很多 个 场景 刚刚 这个 丹萌 里面 的 场景 就 包括 一 开始 是 一个 人像
一个 古典 美女 后面 的话 是 高山流水 紧接着 的话 是 一个 江峰 雨火 的 场景 最后 的话 是 一个 孔明灯 的 场景 会 有 一个 故事 线 的 这样 一个 场景 然后 最终 在 其中 的话 我们 把 所有 的 场景 串练 在 一起 实现 一个 镜头 的 延展 移镜 到底 然后 这个 里面 的话 每个 故事 线 都 会 有 很多 个 场景 不同 的 故事 线会 有 不同 的 场景 然后 每个 场景
里面 都 会 有 元素 的 一个 定制 这 里面 我们 面临 的 一个 挑战 就是 扩散 模型 如何 去 和 运镜 进行 一个 结合 就是 如何 做到 一个 移镜 到底 的 这样 一个 特效 然后 镜头 能 按照 我们 的 想法 缓缓 展开 第二点 的话 就是 视频 生成 当中 会 有 稳定性 的 一个 问题 然后 在 大 场景 切换 的 时候 不同 场景 切换 的 时候 如何 平滑 的 过渡 看起来 就是 一种
一镜 到底 的 很 舒服 的 一种 感觉 这 都 是 我们 面临 的 一些 挑战 然后 底下 有画 了 一个 架构图 首先 的话 是 会 输入 一张 用户 的 图片 经过 一个 AI 机式 的 模型 生成 一张 风格化 的 后 的 图 然后 这 张图 的话 会 经过 一个 WAP 模块 这 WAP 模块 会 输入 一个 运镜 的 移动 位置 就是 移动 方向 然后
紧接着 会 申请 一张 Warp 后 的 图片 然后 这张 图片 会 有 个 轻微 的 扭曲 轻微 的 扭曲 然后 会 再 送给 AIGC 模型 它会 把 它 申请 一张 比较 精美 的 画 AIGC 申请 的 模型 之后 又 会 作为 下 一张 的 输入 就 整个 过程 以此 不断 循环 形成 了 整个
这个 形成 了 整个 整个 链路 那 这个 里面 刚刚 提到 的 比如说 像 视频 的 稳定性 这个 怎么 解决 了 比如说 像 我们 会 用到 很多 的 针尖 的 平滑 策略 包括 在 针尖 会 有 我们 这个 里面 会 有 很多 的 一个 prompt 的 控制 就 每个 场景 都 会 设定 不同 的 prompt 那 不同 的 场景 之间 的 prompt 控制 的 时候 我们 比如说 我们 可以 加入 一些
prompt embedding 的 一个 平滑 过渡 这样 不同 场景 的 那个 融合 就是 平滑 的 然后 另外 一个 问题 的话 就是 刚刚 提到 了 我 的 这个 产品 在 设计 的 时候 会 有 很多 的 元素 比如说 孔明灯 那 这种 元素 有 的 时候 通过 IGC 模型 它 不能 准确 地 在 我 想要 的 位置 都 给 它 生成 出来 它 没有 那么 的 可控 IGC 那 这个 时候 怎么办 呢 就是 我们
可能 会 采取 一些 策略 比如说 会 让 设计 设计 出来 对应 的 一些 元素 的 草稿 图 然后 把 这些 图 作为 垫图 垫 在 IGC 模型 最 下面 去 生成 帮助 模型 去 生成 我们 指定 的 元素 就 这 里面 会 涉及 到 非常 多 的 细节 感谢 运 同学 们 也 可以 线下 讨论 然后
再 介绍 另外 一个 我们 的 视频 这块 的 一个 产品 它 叫 生命力 照片 这个 名字 起 的 还是 比较 划算 先看 一下 这个 Demo 效果 这个 产品 就是 用户 输入 一张 图片 然后 我 给 他 申请 一个 那 是 LeoPhoto 的 一个 小视频 对 这样 一个 然后 我们 取名 叫 生命力 照片 然后
这个 里面 的话 就是 我们 会 要求 跟 刚刚 那个 不 一样 的 就是 它 是 一个 轻微 的 镜头 移动 然后 会 模拟出 用户 拿出 手机 真实 去 拍照 的 那种 状况 然后 里面 的话 涉及 到 人物 的 动态 的话 是 会 有 一些 微小 的 表情 的 一个 动作 它 不会 特别 大 但 很 细微 就
很 真实 表现 出来 第三个 的话 它 比如说 背景 里面 会 有 风吹草动 然后 会 有 水波纹 会 有 这样 的 一些 自然 动态 就 刚刚 就 这边 那些 demo 展示 的 这样 然后 这 一块 的 大概 的 有 个 架构图 放在 这儿 就是 里面 的话 我们 加入 了 一个 人脸 控制 模块 去 解决 人脸 运动 不足 比如说
我们 会 人脸 控制 模块 去 预置 一下 这个 人脸 该 怎么 动 通过 3D 的 一个 pose 然后 另外 的话 我们 是 结有 了 风格化 和 动态 和 动态化 这 两个 模块 动态化 主要 是 通过 Motion 去 解决 然后 风格化 的话 会 把 用户 的 这 张图 我们 先 通过 一个 AIGC 的 图生 图 的 模型 先给 它 转成 对应 的 风格 比如说 我 这边 有 一个 粘图 风格
接下来 这个 图生 视频 的 应用 的话 我们 叫 它 穿越 漫画 遇见 自己 这 款 产品 的话 在 我们 平台 上线 之后 的话 指标 是 比较 好 的 就是 上线 两周 的话 累计 发布 就 接近 10 万 了 然后 上线 两周 的 累计 的 消费 次数 是 在 900 多万 上线 两周 的话 每篇 的 平均 阅读
量 是 在 102 个 可以 看 一下 左边 的 这个 demo 吧 然后 它 的 先 跟 大家 介绍 一下 它 的 产品 形态 吧 它 产品 形态 也 是 用户 输 一张 图片 然后 我 给 它 申请 一段 视频 看
一下 这个 Demo 在 这个 项目 里面 的话 我们 面临 的 主要 挑战 就是 因为 这个 里面 涉及 到 了 很多 的 风格 我们 刚刚 展示 这个 Demo 里面 总共 涉及
到 了 六种 风格 然后 每种 风格 我们 都 得 去 研发 那 这样 小 M 的 定制 研发 就 会 用到 刚刚 给 大家 介绍 的 批量 生成 各种 风格 的 一个 流程 去 做 这个 事情 第二个 的话 就是 也 包含 有 一个 场景 的 变化 这个 里面 要 去 兼容 很多 场景 有人 像 场景 没有 人像 的 场景 那 不同 的 场景 我们 要 去 做 不同 的 一个 策略 研发
底下 有画 一个 架构图 一张 图片 输入 进来 之后 会 有 一个 预处理 模块 预处理 模块 的话 首先 会 去 提取 这个 图片 的 人 像 人脸 特征 然后 包括 它 的 场景 信息 性别 呀 是否是 警卫 呀 各种 信息 这种 属性 提取 出来 之后 的话 我们 会 喂 到 后面 的 生成 模块 生成 模块 里面 我们 会
在 基础 的 SD 模型 上 挂 一个 Controlite 去 控制 然后 在 挂 Controlite 的 时候 那 是 用 Candy 还是 说用 Tile 用 什么 的 这些 我们 都 需要 根据 前面 的 预处理 模型 去 决定 就 不同 的 预处理 模型 出来 的 结果 我们 会 选择 用 不同 的 条件 信息 去 做 然后
以及 后面 会 接上 前景 去 怎么 做 后面 可能 还要 接 一下 超分 包括 还会 接小脸 修复 模块 最后 的话 我们 这 总共 是 有 六个 风格 然后 每个 风格 Random 三个 特效 然后 组成 了 18 帧 然后 再 把 这 18 帧 最终 平滑 地 合成 一个 视频 前面 给 大家 介绍 的 视频 这 一块 主要 是 图生 视频 接下来 给 大家
讲 一 讲 我们 视频 生 视频 这 一块 的 业务 它 的 产品 形态 就是 用户 输入 一段 视频 然后 我 给 他 申请 一段 风格化 的 视频 看 一下 左边 的 这个 Demo 这个 里面 我们 面临 的 主要 挑战 的话 就是 要 同样 也 有 低成本 的 研发 然后 这个 里面 我们 会 把 风格 和 那个 模型 模块 进行 模拟 然后
附用 之前 的 图生 图 的 一个 风格 就 前面 我们 研发 了 很 多种 风格 比如说 十几种 我 只用 从 里面 去 选 一种 适合 就是 比较 好看 的 风格 来 做 这个 V2V 就 可以 了 不用 专门 再 去 做 风格 定制 然后 第二个 的话 就是 在 这个 里面 的话 我们 会 比较 强调 人脸 的 一个 一致性 我们 会 加上 视频 的 小脸 修复 还有 一些 face embedding 模块 去 解决
这个 问题 这个 是 V2V 模块 然后 前面 大多数 讲 的 都 是 风格化 就是 偏向 于 卡通 二次元 的 一个 特效 生成 第三 part 的话 我 给 大家 会 讲 一下 就是 人像 的 控制 这个 就是 让 AIGCC 生成 真人 就 像 类似 照片 的 这样
的 一种 效果 的 首先 的话 就是 可能 大家 如果 做过 相关 的 一些 实践 的话 最 经常 遇到 的 一个 问题 就是 在 生成 真人 图片 的 时候 最 遇到 的 就是 崩坏 类 特别 头疼 然后 第一个 的话 比如说 像 小脸 特别 容易 崩坏 然后 手部 特别 容易 畸形 然后 我 这 给 了 两张 早期 去 做 项目 的 时候 遇到 的 一些 Bad Case
然后 这些 问题 恰恰 是 我们 平台 用户 特别 不能 接受 的 因为 大家 都 说 细节 品控 那 我们 怎么 去 解决 这些 问题 了 首先 是 小 脸 的 修复 技术 这块 的话 就 我们 早期 去 做 就 去年 做 的 时候 这 一块 主要 是 遇到 的 一些 挑战 就是 当时 没有 一个 开源 的 方案 就是 可以 跟 我们 选择 就 需要 自己 去 摸索 第二个 的话 就是 我们 基本上
所有 的 项目 都 会 遇到 这个 问题 都 会 遇到 小脸 有 问题 那 希望 研发 出来 的 方案 的话 是 能 适用 到 所有 的 项目 里面 去 的 那 下面 这块 框架图 的话 可以 看 一下 可以 看 一下 右边 的 这个 首先 的话 是 一张 用户 的 原图 然后 输入 进去 之后 的话 会过 一个 人脸 的 提取 Nandmark 的 模块 提取 到 Nandmark
然后 下面 这个 分支 的话 是 一个 ICD 的 深图 模块 先生 成 了 一张 全图 的 一个 分过 画后 的 图 这个 时候 人脸 小脸 部分 是 很 模糊 的 我 这 抠出来 了 可以 看 一下 挺 模糊 眼睛 鼻子 都 有些 缺失 然后 紧接 的话 我会 把 这个 小脸 的 这份 单独 抠出来 以及 刚刚 上面 提到 的 Landmark 一起 注入 到 SD 的 imprint 模块 这个 地方 有 下面 这个 图是
一个 imprint 的 一个 mask 图 以及 会 配合 一些 人脸 的 一个 prompt 最终 会 生成 出来 这样 一张 小脸 show put 的 图 因为 是 采用 的 imprint 就是 SD 的 imprint 的 能力 所以 说 它 天然 的 和 原图 又 比较 好 比较 容易 能 融合 进去 它 的 背景 是 不变 的 这个
是 小脸 修复 这 一块 然后 在 崩坏 这 一块 另外 一个 比较 头痛 的 问题 就是 手部 了 然后 手部 的 问题 其实 是 要 比 人脸 更难 一点 的 就 在 业内 的话 因为 它 的 自由度 是 特别 高 的 就是 手部 的 自由度 在 2D 空间 的 表达 表征 是 特别 复杂 的 然后 以及 手部
它 也 存在 着 遮挡 人质 遮挡 手指 之间 手掌 之间 包括 手脸 之间 都 会 存在 一些 遮挡 问题 所以 说 它 会 让 问题 更加 地 复杂 然后 这 一块 我们 的 解决方案 是 我们 会 训练 一个 我们 自己 的 手部 CountryLight 然后 这个 下面 画 的 这个 图 里面 可以 看到 我们 的 CountryLight 的话 在 我们 开源 的 CountryLight 基础 上 我们 会 加入 人脸 的 Nandmark 包括 还会 再
加入 手部 的 一个 Soft Edge 会 引入 多维度 的 一个 条件 去 控制 然后 这个 里面 的 第一列 的话 是 用户 的 图 第二列 的话 是 开源 的 出来 的 效果 第三列 是 我们 采用 的 这个 条件 信息 第四 列 的话 是 这个 我们 生成 的 一个 效果 就 可以 看到 手部 可以 比较 好 的 一个 生成 出来 了 Bud case 率 是 解决 了 很多 当然 也 不是 那么 百分百 解决
了 这 毕竟 是 手部 生成 目前 还是 一个 带 进一步 完善 的 一个 问题 这是 第二个 后面 这 张图 的话 是 全身 场景 下 我们 的 这个 模块 也 是 Work 的 比较 好 刚刚 讲 了 一下 在 人 像 生成 的 时候 两个 畸变 的 问题 接下来 跟 大家 讲 一下 在 人 像 生成 当中 还有 一个 很 重要 的 问题 就是 要 解决 像不像 的 问题 就是 我 输入 了 一张 我 的 照片 那
生成 的 AI 机器 给 我 生成 的 一张 图片 像不像 我 本人 这是 用户 特别 关心 的 一件 事情 然后 这块 的话 给 大家 介绍 一下 我们 一项 工作 就是 incident ID 可能 有些 同学 听说 过 就是 在 Github 时代 有 2 万多 然后 效果 可以 看到 第四 列 还是 比较 好 的 就是 确实 生成 度 还是 比较 像 的 然后 这个 方案 的话 就是 可以 看
一下 右边 的 这个 框架图 是 这样 然后 当时 我们 遇到 的 问题 就是 去年 做 这个 事情 的 时候 大多数 的 方案 都 是 需要 对 人 像 进行 一个 专门 的 定制 的 就是说 那 是 Ginboost 的 这套 方法 需要 对 某 一个 人 专门 去训 这个 人训 一个 模型 出来 没 办法 是 机插 机用 的 然后 我们 的 做法 的话 是 把 那个 强 语义 的 条件 就
face embedding face reference 图 和 那个 握 空间 条件 Dandmark 一起 注入 到 网络 当中 这样 的 优势 的话 就是 可以 做到 可 插拔 然后 它 是 train free 的 以及 也 可以 获得 最终 的 比较 好 的 一个 高 ID 的 一致性 右边 这 张图 可以 详细 给 大家 讲 一下 可能 我们 做 算法 同学会 比较 感兴趣 一点 首先 呢 是 有 一张 reference 图 这个 是 Telesweets 图 然后 我们
把 它 会 有 一个 提取 出来 它 的 一个 landmark 然后 这个 landmark 的话 会 经过 底下 的 一个 identity . net 网络 然后 这个 网络 同时 也 会 注入 一个 face embedding 进来 然后 这份 提取 的 一个 identity 的 这个 future 会 注入 到 上面 的 一个 主 网络 主 网络 很 简单 就是 一个 去照 网络
就是 一个 噪声 输入 然后 去照 网络 主 网络 上面 我们 还会 专门 在 为了 增强 人脸 的 相似 度 我们 还会 再 接 一个 Faced Encoder 然后 提取 出来 它 的 一个 Faced Embedding 然后 再 注入 到 这个 主 网络 当中 同时 为了 兼容 最 通用 的 纹身 图 的 一个 能力 所以 说 我们 是 保留 了 在 这个 设计 上 是 保留 了 这个 SD 模型 原生 的 一个 在 训练
的 时候 保留 它 这个 Test Embedding 的 能力 的 这块 是 动作 不动 的 就是 因为 我们 在 设计 的 时候 的话 是 Testing Embedding 包括 组 网络 都 是 动结 不动 的 只 训练 就是 我们 的 那个 Identity Lat 和 Face Embedding 这些 模块 所以 说 我们 的 这个 我们 的 Incident ID 模块 的话 它 是 可以 作为 插间 的 形式 适配 在 所有 的 SD - Tile 的 一个 模型
上面 的 做到 了 可 插板 接下来 给 大家 再 讲 一些 在 视频 方向 上 我们 人像 控制 的 一些 探索 首先 的话 是 人脸 编辑 这 一块 可以 先看 一下 这个 效果 吧 就是 我们 自研 的 效果 就是 把 刘德华 的 图 和 杨密 的 一个 图 进行 一个 编辑 左边 的 这个 是
一个 摩特图 右边 的话 就是 我们 给 它 换成 的 这个 刘德华 的 脸 下面 这个 第一个 也 是 一个 网红图 然后 我们 给 它 右边 切换 成 了 这个 杨明 的 脸 稍微 有点 暗 可能 大家 看 不大清楚 这里 然后 这块 的 那个 技术 方案 的话 就是 我们 会 尝试 去捷 偶人 脸 的 纹理 pose 还有 shape 然后 分别 去 注入 到 网络 里面 可以 看 一下 这个 架构图 嗯
首先 是 下面 的 这个 主 网络 主 网络 部分 我们 会 进行 一个 POSE 空间 位置 的 一个 注入 信息 包括 像 我们 会 注入 3D 的 一个 法 向量 Map 然后 这个 法 向量 Map 的话 它 是 会 包含 有 驱动 会 包含 有 驱动 视频 的 一个 POSE 信息 位置 包括 它 的 表情 但是 是 结有 了 ID 信息 会 把 ID 的 一个 系数 置 为 0 以及 会
输入 这个 驱动 视频 的 它 的 背景 的 一个 Mask 然后 上面 的 那个 Face Reference Light 的话 我会 把 那个 比如说 杨咪 的 脸 超越 的 脸 给 它 注入 进去 就是 我 需要 换 进去 的 脸 然后 最终 作用 到 主 网络 上 最终 生成 最终 的 一个 效果 这个 里面 的 核心 点 的话 其实 是 如何 去 解偶 这时候 的 条件 信息 就 人脸 它 有 表情 有 shape
然后 有 纹理 ID 就 如何 去 做到 解偶 如果 你 能 做到 很 好 的 解偶 那 你 就 能 对 人脸 进行 一个 很 好 的 编辑 和 控制 最后 这个 项目 是 一个 人体 驱动 的 项目 这个 方案 其实 是 来自 于 阿里 谦问 的 Animate Under One 我 觉得 他们 这 一块 工作 还是 比较 solid 的 我 先 看 一下 咱们 的 Demo 吧 这 是 咱们 自研 的 效果
目前 应该 是 跟 阿里 齐评 它 的 这个 方案 里面 的话 感兴趣我 也 稍微 给 大家 讲讲 就是 有些 同学 可能 也 看过 首先 的话 它 的 那个 网络 的 分为 两个 部分 下面 的话 是 一个 主 网络 上面 的话 是 一个 reference 网络 主 网络 主要 注入 的 是 一个 Post 的 驱动 训练 然后 reference 网络 的话 主要 是 注入 的 带 驱动 人 的 一个 文理 信息
然后 reference light 的 它 的 future 会 通过 一个 space attention 就是 最 右边 这个 结构 space attention 的 一个 方式 注到 主 网络 中 去 就是说 把 我 的 纹理 给 渲染 到 这个 着色 到 这个 骨架 图 上面 去 然后 space attention 的 这个 设计 也 是 挺 精妙 的 然后 在 这块 的话 我们
当时 做 的 时候 遇到 的 主要 的 挑战 就是 怎么 去 解决 泛化 性 的 问题 以及 稳定性 的 问题 当时 其实 有 一些 开源 的 工作 其实 在 Git 上面 能 收到 但是 泛化 性 都 是 比较 差 的 然后 稳定性 也 都 不 太行 对 就是 都 是 比较 难 做到 能 上线 的 泛化 性
的 问题 上 其实 解法 也 很 简单 也 非常 的 工业界 就是 我们 会 通过 足够 多 的 足够 干净 的 数据 去 解决 这个 问题 多样性 的 数据 但 本身 如何 去 获取 这种 足够 干净 足够 多 的 数据 这 本身 也 是 一个 难题 会 涉及 到 很多 的 然后 第二个 部分 的话 就是 稳定性 这 一块 然后 在 稳定性 这 一块 的话 我们 也 有 一些 小 的
Trick 比如说 像 这个 第二个 刚刚 展示 的 这张 骨架 图 这 一块 我们 的 骨架 图 的话 会 通过 一个 POSE 的 模型 获取 然后 到 多 伸 当中 之后 的话 它 是 特别 的 抖动 的 那 我们 可以 经过 比如说 一个 卡曼 滤波 把 这个 骨架 图先 给 稳定 起来 然后 再 比如说 这是 第一个
Trick 再 比如说 我们 在 深层 的 时候 C2 训练 Motion 模块 的 时候 那真 采样 怎样 是 合理 的 了 如果 采样 的 间隔 特别 大有 可能 它 本身 采样 的 那个 视频 就 很 抖动 训练 视频 就 很 抖动 这个 里面 就 会 有 很多 的 策略 和 Trick 去 做 然后 最终 能 做到 最后
的 效果 第四 % 就 比较简单 就是 一个 未来 的 展望 主要 是 更 快 更 真 然后 更全 更 快 就是说 如何 提升 我们 的 生成 速度 因为 AIGC 是 特别 慢 的 然后 第二 部分 更 真的 话 就是 AIGC 效果 如何 做到 进一步 的 更 真 让 我们 的 用户 都 看不出来 它
是 造假 了 或者说 80% 以上 生成 的 图片 90% 以上 生成 的 图片 你 都 看不出来 这是 AIGC 做 的 你 觉得 可能 就是 拿 着 相机 随便 一拍 的 或者说 是 设计师 画 出来 的 精美 的 图片 第三个 的话 就是 更全 就 如何 去 And toAnd to 解决 人脸 人体 还有 风格化 的 问题 就 我 刚刚 提到 了 很多 个 项目 其实 是 都 要 单独 研发 的 那 现在 ID
的 生成 能力 其实 是 很 强 的 我们 如何 And toAnd to 解决问题 然后 目前 这 是 我 提出 的 一个 开放式 的 问题 我 这里 也 没有 给出 大家 答案 好 我 今天 的 分享 就是 这样 有 什么 问题 吗 大家 有 问题 可以 现场 有 几个 问题 可以 跟燕琴 同学 交流 一下 咱们 那个 手部 修复 的 时候 其实 做 了 一个 模型 训练 对 吧 然后
比 原始 的 那个 数据 是 多 了 一些 你们 自己 的 脸部 的 信息 那 我 想 问 一下 这些 信息 都 是 一般 你们 是从 哪里 获取 的 呢 它会 注入 更 多 的 条件 这些 条件 的话 需要 你 用 模型 去 提取 的 比如说 像 这个 你们 我 注入 了 手部 的 可以 看到 画出 了 一个 手部 的 大概 的 轮廓 它 是 一种 叫 soft edge 的 一个 方法
就是 传统 的 你 可以 提取 到 它 的 大概 的 手部 的 轮廓 然后 比如 你 再 结合 一个 皮肤 分割 然后 一些 方法 你 就 可以 把 手部 的 一个 轮廓 给 大概 的 画 出来 所以 我 理解 是 基于 已有 的 数据 做 了 一些 新 的 处理 就 获取 了 一些 新 的 数据 是 这个 意思 对 基于 已有 的 数据 进行 一些 更 多 条件 的 提取
了解 还有 问题 吗 我 想 问 一下 用 AIGC 去 做 换 脸 比用 GUN 去 做 换 脸 的话 它 有 什么 优势 和 劣势 这是 一个 好 问题 因为 像 人脸 的 编辑 这 一块 人脸 的 编辑 这 一块 在
Gun 时代 其实 就 可以 做到 就是 之前 有 一款 19 年 有 一款 比较 火 的 应用 叫造 那个 时候 就 可以 做到 人脸 的 一个 编辑 那 我们 现在 在 AI 机器 时代 做到 的 换 脸 和 人脸 编辑 和 当时 有 什么 区别 了 然后 我 觉得 AI 机器 去 做 有 一个 很 显著 的 优势 就是 它 在 生成 的 细节 方面 是 特别 的 好 的 比 Gun
时代 要 更好 然后 它 的 在 包括 和 背景 融合 的 时候 它 光影 的 一些 控制 会 更好 一点 更 自然 一些 生成 的 更 真 然后 它 的 劣势 也 比较 明显 它 的 劣势 就是 它 的 计算 复杂度 会 更 高 它 会 更 吃 GPU 资源 就是 干 时代 除了 画展 之外
有些 应用 都 可以 做到 实时 但 AIGC 目前 是 不 可以 的 就 它 的 优势 和 劣势 都 是 比较 明显 的 好 谢谢 谢谢 大家 还有 什么 问题 吗 行 那 非常感谢 那个 燕琴 给 我们 带来 精彩 的 分享 内容 量 非常 大 如果 大家 还有 一些 问题 可以 线下 再 跟 我们 燕琴 同学 交流
接下来 我们 的 另外 一个 那个 接下来 的 一个 talk 是 那个 跟上 一个 talk 有些 不 一样 啊 就是 我们 燕琴 跟 我们 分享 了 一些 他 在 小红书 一些 技术 的 实践 接下来 我们 会 有 一个 非常 技术 的 topic 就是 大家 知道 现在 这个 diffusion 基本 占据 了
个 纹身 图 纹身 视频 的 主要 赛道 然后 接下来 就是 字眼 跳动 我们 江映 同学会 跟 我们 分享 他们 在 用 一套 新 的 AR 的 这套 思路 去 做 这个 图片 生成 那 大家 我们 非常高兴 邀请 江亦给 我们 带来 分享 Hello everyone, I'm very grateful to have invited you to do this video. This video
is to introduce our latest work, which is Autogressive Modeling Scalable Image Generation via Next Scale Prediction. This is our latest work in the last year's first year's first project.
我 是 来自 自己 挑动 商业化 GNA 团队 的 同学 主要 负责 一些 基础 的 Foundation Model 的 研发 我 这次 分享 的话 主要 分为 五个 section 第一个 section 包括 介绍 一些 现在 主流 的 一些 深入 生成 模型 包括 Diffusion Model 包括 Large Language Model 第二个 section 的话 我会 介绍 一下 就是 现在 Language Model 的 一些
成功 如何 去 借鉴 Language Model 的 一些 优秀 的 一些 性质 包括 Tokenization , 包括 NextTokenPrediction , 包括 ScalingRaw , 这些 优秀 性质 来 提升 我们 视觉 领域 的 一些 大 模型 , 或者 是 说 视觉 生成 领域 , 做到 一个 AGI 时刻 。 第三个 section 的话 会 介绍 比较
关键 的 一个 部分 , Image tokenization 。 因为 AIM 成功 很大 一部分 来自 于 tokenization 的 成功 , 对 , 包括 视觉 领域 的 tokenization 如何 做 , 现在 是 一个 路线 之争 , 包括 连续 的 VAE 或者 离散 的 VAE 是 分别 怎么 做 的 , 这 里面 代表 工作 包括 VAE 或者 VQVAE 。 最后
第四个 section 的话 会 介绍 我们 的 VAR 这个 工作 , 就 VG Autolux , 如何 基于 刚刚 说 的 , 包括 一些 , 包括 一些 , 包括 一些 , 或者 是 说 , 去 做到 我们 最新 的 一个 工作 。
最后 我们 会 介绍 , 这 五个 , 会 介绍 一些 , 包括 一些 , 包括 一些 , 首先 , 第一个 Session 我来 介绍 就是 现在 的 主流 的 一些 生成 方式 , 像 比较 早 的 , 像 GAN , 像 FlowModel , 像 VAE , 像 现在 从 20 年 或者说 21 年 开始 的 DDPM , 或者 是 Score Based Model , 宋妍 老师 的 Score Based Model , 或者 出海 的 一个 , 现在
大家 都 比较 喜欢 Follow 的 一个 Diffusion Model , 对 。 可以 看到 这个 Landscape 这边 , 我们 可以 看到 就是 像 1617 年 开始 火 的 GAN 我 这边 也 飙亮 了 现在 的话 大家 越来越 关注 着 一些 denoinsing based diffusion model 但是 其 背后 很多 工作 没有 被 大家 所 关注 到 包括 一些 VAE 包括
energy based model 包括 autoregressive model 然后 这块 的话 就是 2020 年 还是 2021 年 的 Nibs 上 的 一个 发表 的 工作 就是 开山 制作 DDPM 其实 同期 制作 有个 就是 OpenAI 的 宋元 老师 的 Score - based model 对 然后 这块 的话 其实 大家 都 比较 了解
我 就 不会 在 这 赘述 了 对 然后 这 里面 经典 工作 就是 一个 DDPM 以及 后续 的 加明 的 DDIM 包括 就是 包括 宋元 老师 的 Score - based model 对 然 後 這裡面 我 要 提 一下 就是 現在 主流 的 一些 GPT 的 一些 方式 包括 語言 模型 這邊 它現 在 基本 都 被 GPT 或者 是 一些 類 LAMA 的 一些 結構 所 統治
這裡面 它 經典 的 幾個 style 經典 幾個 pipeline 包括 第一 個 stage 的 tokenization 之後做 next token prediction 它 有 tokenization 之 後 就 可以 通過 一些 最大 視野 以及 去 优化 从而 做到 这个 Nest Token 的 就是 这种 自 监督 的 训练 办事 第二阶段 的话 就是 做 Instrategian Tuning 我们 熟知 的 大家
都 知道 的 SFT 第三阶段 的话 再 是 一些 RHF 然后 我们 就 会 在 想 ARM 成功 对 视觉 领域 有 什么 借鉴 意义 那 ARM 的 成功 呢 其实 我们 刚刚 也 说 过 了 ARM 成功 用 非常 非常 多 的 都 可以 学习 的 地方 但是 视觉 模型 现在 还 没有 走向 AGI 的 一刻 第一 , 他 没有 做 真正 的 视觉 模型 , 目前
没有 看到 一个 具有 scaling law , 或者 具有 涌现 能力 的 模型 。 第二
, 我们 没有 看到 一个 能够 既能 做 生成 , 又 能 做 理解 任务 的 模型 。 第三 , 视觉 领域 的 任务 非常复杂 , 有 连续 的 任务 , 有 离散 的 任务 , 各种各样 的 。 离散 任务 像 一些 detection , 或者 是 一些 checking , 或者 是 一些 相关 的 。 连续 任务 包括
我们 数字 的 一些 segmentation 或者 相关 的 其实 这些 任务 远远 没有 走向 一个 统一 也 没有 走向 一个 深深 和 理解 统一 它 也 没有 能 做到 一些 真正 的 犯话 所以 我们 就 来 剖析 到底 原 模型 的 一些 成功 能 给 我们 带来 什么 一些 insight 首先 我来 介绍 一下 就是 语言
模型 它 最 重要 的 一点 就是 TokenizationTokenization 就是 我们 语言 模型 这边 经常 会 用到 BPE 或者 word piece , sentence piece 等等 相关 的 为什么 Tokenization 重要 呢 因为 Tokenization 本质 上 是 个 语义 层面 的 一些 压缩 因为 人 沟通 或者 人写 的 东西 全是 语言 和 文字 那 这些 东西 其实 已经 经过
人类 几千年 或者 是 几万年 的 一个 有 一套 比较 完备 的 一个 codebook 和 语义 的 体系 那有 了 这套 语义 的 codebook 和 体系 之后 呢 就 可以 做 我 可以 对 它 做 一定 程度 上 语义上 压缩 也 就是 我们 熟知 的 tokenization 有 了 tokenization 之后 呢 我 就 可以 把 这个 所谓 的 语义 信息 把 它 把 它 map 到 一些 token id
上 从而 它 可以 做 一个 最大 四栏 估计 从而 去 利用 cross entropy 优化 这 也 是 语言 模型 能 做 pre - tuning 或者 是 说 SFT 的 一个 非常 关键 的 一点 然后 第三点 的话 就是 我 刚刚 其实 我 也 提到 了 就是 它 的 信息 的 压缩 是 一个 在 语意 空间 上 压缩 但 不 像 视觉 模型 它 可能 更 多 是 在 一些 low level 上 的
一些 压缩 第二点 就是说 有 了 tokenization 之后 我们 其实 就 可以 做 一些 pre - tuning 相关 的 一些 事情 包括 我们 从 海量 的 一些 web data 里面 去 去 清醒 出 一些 高质量 数据 然后 去 通过 Nest token prediction 做 pre - tuning 这个 pre - tuning 它 更 多 是 学习 到 一些 semantic knowledge 更 高阶 的 一些 语义 信息 然后 第二点 就是 语言 模型 的 一个 非常
大 的 优势 它 可以 利用 一些 这种 pre - tuning 从而 去 做到 一些 incount test learningincount test learning 最 重要 一点 它 可以 去 transfer 到 一些 noval task 就是 我们 熟知 的 GPT 它 可以 做 很多 我们 没有 见 过 的 一些 任务 究其原因 呢 就是 因为 它 其实 语言 的 这个 tokenization 已经 压缩 了 非常 非常 多 语意 我们 人 所 定义 的 所有 的 任务
都 被 都 在 语言 语言 这个 空间 上 所 被 定义 清楚 了 对 有 了 这样 的 一个 前提 我们 就 能 看见 语言 它 其实 可以 就 被 生成 生成 任务 和 理解 任务 就 可以 统一 在 一个 框架 下 因为 所有 的 生成 或 理解 它 都 通过 语言 或 文字 来 描述 那 就 很 自然 最后 一点 就是 我们 大家 所表 都 很 关注 的 一个
scaling law 的 一个 问题 我们 把 像 20 年 的 GPT 它 是 已经 scaling 到 了 一个 175B 的 一个 model size 包括 现在 最新 的 Lama3 能 scal up 到 一个 接近 450B 的 这样 一个 model size 可以 看到 就是 不停 的 scale 它 的 性能 是 随之 线性 的 增长 这个 scaling law 从而 达到
一个 涌现 能力 这 也 是 语言 语言 模型 的 一些 非常 非常 独有 的 一些 特性 对 那 这里 呢 就是 我们 在 想 视觉 模型 为什么 做 不到 这 一点 其实 就是 根本原因 有 好 几点 这 里面 我 大概 列 了 一下 第一点 就是说 视觉 它 的 信息 相比 语言
非常 不同 因为 视觉 它 有 三维 的 包括 空间 的 包括 时间 的 但 语言 的 它 是 一维 上 的 context 视觉 它 包括 我们 就是 3D 空间 的 空间 上 的 和 时间 纬度 上 的 所以 它 的 信息 密度 远远 是 要 比 语言 上 的 文字 是 要 低 的 对 第二点 就是 视觉 有 更 多 的 context 或者说 有 更 多 的 模态 包括 一个 我 刚刚
说 的 spatial temporal 之外 还有 一些 pixel point cloud 还有 一些 红外 等等 相关 的 它 还有 图片 和 视频 第三点 的话 就是说 语言 模型 可以 去 通过 一个 刚刚 说 的 统一 和 深层 理解 的 这种 方式 去 pre - tuning 但 视觉 模型 因为 刚刚 说 的 任务 的 繁杂 以及
它 的 模态 的 不同 其实 很难 去 被 统一 就是说 语言 模型 走向 AGI 这条 路上 远要 比 视觉 模型 走得 更加 靠前 一点 这是 最后 一点 就是说 语言 模型 它 其实 能够 去 全部 被 因为 任务 是 人 定义 的 所以 全部 被 统一 起来 然后 我 其实 刚刚 说 了
比较 多 但 其实 最 关键 的 一点 的话 就是 tokenization 第一步 应该 是 Tokenization 所以 我们 会 介绍 一下 视觉 领域 如何 去 借鉴 语言 模型 的 Tokenization 这里 呢 要 提及 几个 经典 工作 一个 是 AEAEAE 本质 上 就是 Autoencoder 其实 就是 一个 压缩 但是 它 其实 没有 随机性 因为 生存 模型
最 重要 一点 就是 随机性 所以 的话 就 有 了 一个 VAE 它 其实 在 Latin Space 上加 了 个 KL 散度 约束 然后 这个 VAE 呢 对 在 影 空间 上加 了 这个 KL 散度 约束 从而 使得 它 有 随机性 使得 它 可以 在 各种 高丝 分布 上 进行 采样 并 通过 一些 解码 细细 生存 数据 值得一提的是 VAE 这个 工作 在 今年 的 iClear 的
会上 他 其实 也 拿 了 一个 Test of Time Award 就 证明 这 十年 来 的话 VAE 这个 工作 基本上 是 一个 非常 受 大家 关注 的 一个 Malestone 级别 的 一个 工作 有 了 VAE 之后 呢 , 大家 就 在 关心 如何 在 latent space 上去 做 一个 生成 或 采样 。 那 就 有 了 LDM , latent diffusion model , 这 也 是 stable diffusion 的 base model 。
Stable diffusion 的话 , 就 在 latent space 上 进行 diffusion 的 一个 扩散 和 采样 的 过程 。 这是 一个 经典 的 连续 的 VAE 的 代表 工作 。
下 一个 的话 就是 我们 在 想 , 就是说 , 这些 diffusion model , 那 如何 去 和 一些 像 language model 集合 , 那 其实 就 到 了 , 我 如何 去 把 这些 连续 的 VAE , 然后 去 把 它 去 做到 一个 理善 的 VAE 为什么 要 做 理善 的 VAE 呢 因为 有 了 理善 的 VAE 之后 我 就 可以 把 一些 一张 图 或者 一个 图像 映射
到 一个 TokenID 上 也 就是 一些 语意 上 TokenID 上 从而 去 通过 一些 最大 四单 估计 以及 Cross - Sintry of VLOS 去 优化 从而 的话 就 可以 去 做 一些 scaling up 像 Language Model AR 一样 去 生成 图像 对 那 这里 呢 有 个 经典 工作 那 就是 像 OpenAI 的 2020 年 提出 来 的 一个 工作 叫 Image GPT 这 工作 也 是 OpenIT 出来 的 基本
是 GPT - 3 的 一个 统计 工作 。 它 说法 也 比较简单 , 就是 在 图像 上 , 对 图像 上 的 一些 像 树 进行 巨类 , 比如说 得到 了 一个 1024 个 空间 上 的 巨类 中心 , 然后 通过 GPT - style 进行 自 回归 的 训练 , 或者 birth - style 的 Mask
Language Modeling , 对 然后 因为 他 当时 因为 他 当时 其实 在 空间 上 进行 项目 居类 所以 他 并 不 具备 特别 多 的 语义 对 所以 所以 当时 OpenAI 也 没有 对 他 进行 scaling up 然后 他 model size 也 比较 小 所以 没有 没有 去 验证 scaling law 这是 第一 第二点 的话 由于 当时 的 一些 算力 的 约束 使得 他 没有 去 在 也 是因为 没有 算力 约束 没有
去 验证 scaling law 然后 因为 这个 framework 它 其实 计算 量 啊 或者 是 一些 相对 的 一些 都 比较 大 所以 当时 的 openAI 也 没有 去 生成 一些 非常 高清 的 像 11024 的 图像 而是 它 生成 的 图像 质量 都 相对 比较 低 就 来 生成 一些 64 × 64 × 3 的 这样 的 一个 图像 但是 这个 工作 呢 已经 是 作为 一个 就是 GPT 和 一些 图像
生成 的 一个 结合 的 一个 先驱 的 工作 指导 的 大家 往下面 走 更 近 的 走 一步 那有 了 这个 之后 , 就是 Emi GPT 之后 大家 可以 看到 , 我们 可以 做 一个 tokenization , 当然 前面 tokenization 比较简单 , 可能 只是 空间 上 的 像素 上 的 聚类 , 那有 了 这个 之后 , 就是 有 了 VAE , 有 了 这个 之后 , 我们 就 在 想 如何 把 ,
去 把 它 映射 到 一个 codebook , 像 language model 一样 , vocabulary 一样 去 映射 过去 , 那有 了 这个 之后 呢 , 就 有 了 VQ VAE , 那 VQ VAE 呢 , 其实 就是 把 构建 了 一个 离散 的 codebook , 这个 codebook vocabulary 可能 是 一个 8K , 16K , 当然 有 最新 的 工作 像 Mac VIT V2 , 它 能 扩到 260K , 就 26 万 这样
的 codebook 。 这 codebook 就 表示 我 可以 像 语言 空间 一样 , 去
的 codebook 。 这 codebook 就 表示 我 可以 像 语言 空间 一样 , 去 通过 这些 codebook 的 组合 , 去 组合成 一个 比较复杂 的 图像 。 对 ,
这是 第一点 。 第二点 呢 , 它 其实 在 VAE 基础 上加 了 quantization , 加 了 量化 , 然后 将 量化 操作 使得 它 在 VAE 的 latent space 可以 去 映射 到 一些 token ID 的 力度 。 我 可以 通过 像 语言 模型 的 范式 去 做 Pretraining 。 然后 我们 可以 看到 回到 刚刚
的 landscape , 我们 可以 看到 其实 背后 有个 彩蛋 , 就是说 当时 在 很早 的 时候 就 已经 有 了 , 像 2021 年 的 时候 , 或者 2022 年 的 时候 , 其实 已经 有 一些 相关 的 AutoRegressive Model 了 , 但是 它 的 效果 其实 并 不 令人 如意 , 第一 是 像 ImmuseNet 上 的 FID 不够 好 , 第二点 的话 就是 它 的 生成 效果 不够 惊艳 第三
的话 就是 它 速度 相对 会 比较慢 另外 它 的 因为 O2Grasus AR 的 这种 顺序 真的 符合 视觉 生成 的 这种 直觉 吗 这个 也 不 一定 所以 后面 我们 会 会 逐步 的 介绍 然后 第一个 工作 真正 意义 上 的 一个 开创 制作 是 2021 年 还是 2022 年 的 一个 CVPR 的 一个 ORO 这个 工作 叫 熟知 就是 叫 VQGAN 这个
工作 是 第一个 用 Emitic Tokenization 也 就是 VQ VAE 结合 GPQ style 的 这种 AR 的 去 生成 图像 的 一个 工作 对 这 工作 到 目前为止 Citation 应该 有大 几千 可能 六七千 基本上 视觉 生成 领域 的 人 应该 都 知道 这个 工作 然后 它 这个 工作 很 简单 就是说 我 对 一个 图像 像 用 VQVAE 它 的 Backbone 可以 是 CNN 也 可以 是 VIT - based
的 Backbone 对 然后 把 它 做 了 Tokenization 之后 它 有 了 一个 VIT 的 VQGAN 的 Tokenization 然后 再 逐步 地 利用光 山 顺序 一样 , 从左到右 , 从上到下 , 逐步 地 这样 去 生成 。 其实
和 文本 的 生成 几乎 是 一模一样 。 这 也 是 当时 的 第一个 , 用 ImageTokenization 加 Auto - RegressiveTransformer 生成 图像 的 一个 工作 。
然后 它 工中 呢 其实 做 了 一系列 的 改进 , 包括 它用 PixelCNN 换成 的 Transformer , 也 就是 GPT2 的 这种 架构 。 第二 的话 就是 它 的 Tokenization 的 时候 , 其实 不仅 加 了 Persection Loss , 也 加 了 一些 Discriminals , 也 就是 熟知 的 一个 大家 都 知道 的 一个 GAN Loss , 对 。 然后 做 了 这 一系列 改进 之后 呢 , 它 其实 就 可以
对 。 然后 做 了 这 一系列 改进 之后 呢 , 它 其实 就 可以 生成 非常 高质量 的 图像 了 , 并且 可以 和 Diffusion 去 摆摆 手腕 了 。 当然 它 的 它 当时 因为 当时 的 算力 或者 一些 局限性 的 手制
。 当然 它 的 它 当时 因为 当时 的 算力 或者 一些 局限性 的 手制 因为 这 是 在 大 模型 爆发 的 前夜 所以 它 其实 并 不是 一个 非常 长 的 context length 的 生成 它 更 多 的 是 一个 在 window 里面 的 一个 去 AR 生成 比如说 像 右边 这个 示意图 它 可能 是 前 几个 token 然后 预设 下 一个 然后 逐步 的 划刷 这种 性质 不过 这 已经
是 一个 非常 大 的 进步 了 对 然后 它 的 效果 呢 可以 看到 它 在 EmicNet class condition 上 可以 达到 一个 还 不错 效果 并且 它 可以 和 当时 的 Sota 像 那个 OpenAI 的 一个 Diffusion Beast Gun 这个 Paper 白白 手腕 了 当时 可以 看到 就是说 它 的 效果 已经 非常 不错 了 对 而且 它 是 一个 开山 之座 对 也 是 第一个 就是 EmicTokenization 加 AR 的 一个
工作 它 的 FID 的话 加 加上 reject sampling 其实 可以 跟 ADM , 也 就是 diffusion - biscans paper 达到 一个 comparable 的 效果 。 然后
刚刚 的 那些 vqGAN 或 transformer 这些 model size 都 相对 不是 很大 。 有
了 这个 工作 之后 大家 在 想 , 我 是不是 能 跟 language model 一样 去 做 scaling , 其实 这个 想法 主要 是 说 有 资源 有算力 其实 就 可以 做 这个 事情 包括 当然 也 得 有 数据 那 同样 的 这个 工作 呢 这个 工作 来自 于 Google 的 research 这样 的 一个 工作 工作 的 作者 呢 现在 做 的 是 余家 辉 他 现在 是 在 open
AI 这 工作 的 也 就是 做 scaling 方法 也 很 简单 就是说 做 imaging tokenization 和 Auto - regrets model 把 context lens 扩得 比较 长 然后 第二 呢 就 把 model size 扩到 非常 大 应该 是 我们 熟知 的 就是 这种 图像 生成 领域 model size 最大 的 一个 工作 它 是 一个 20B 的 这样 的 一个 工作 并且 是 第一个 在 test to image 上 把 那个 image to organization
加 AR 这 框架 做 walk 的 一个 框架 就 我们 知道 当时 这个 工作 发表 的 时候 是 在 2022 年 的 应该 是 还 没到 年底 应该 是 上半年 那个 时候 在 GPT 或者 是 一个 大 语言 模型 爆发 了 一个 潜夜 在 当时 能够 有 这样 的 insight 和 这样 的 一个 motivation 就是说 这个 事情 是 非常 振奋人心 的 一个 事情 因为 对 视觉 领域 的 生成 是
个 非常 大 的 出镜 或者 帮助 当然 它 不仅 是 简单 的 把 model 就是 深度 和 宽度 scaling 的 R - speed 脑袋 也 当时 很 超前 的 用 了 一些 MOE 的 思想 当然 现在 我们 的 一些 语言 模型 也 基本上 都 会 去 follow 像 MOE 相关 的 一些 工作 然后 他 就 不停 把 model scaling 到 20 币 并且 用 了 MOE 这个 思想 所以 思想 非常 超前
对 回到 这里 我们 就要 回顾 一下 刚刚 说 的 一些 语言 模型 的 一些 特质 包括 tokenization 那 就 其实 有 了 VQVAE 我们 就 可以 做 tokenization 然后 有 了 tokenization 的 时候 在 语意 空间 上 就 可以 做 NestTokenPrediction 就 可以 做 这种 之间 多数 Pretrining 有 了 这样 的 一套 组合
之后 呢 我们 就 可以 想 把 Model Size 的 Scalering 到 非常 大像 Party 的 R10B 或者 做 MOE 那 其实 有 了 这 一套 组合 之后 我们 做 这些 事情 就 非常 自然 那 就 有 了 我们 我们 就 在 想 这套 AR 加 AR 这套 真的 符合 视觉 的 一个 生成 的 一个 本质 吗 其实 我们 就 一直 在 思考 这个 问题 那 我们 看像 左上角 的话 就是 一些
典型 的 GPTLAMA 或者 是 最新 的 一些 一些 一些 一些 比较 新 的 一些 工作 对 然后 它 就是 典型 的 就是 一个 从左到右 的 这个 Nest Token Prediction 对 下面 就是 像 VicoGant 像 Party 一样 他 把 图像 做 了 tokenization 之后 从左到右 从上到下 来 去 逐步 的 光山 顺序 的 生成 那
这样 真的 make sense 吗 我 觉得 这个 是 一个 开放式 的 问题 但是 我们 其实 从 当时 我们 当时 做 这个 工作 的 时候 其实 并 不 这么 觉得 因为 其实 图像 生成 它 其实 并 不是 跟 文本 一样 有过 这样 的 左右 的 顺序 它 其实 是 一个 整体 到 一个 整体 到 举步 的 一个 顺序 人 看 东西 的 时候 一般 都 是 我 先 看 整体 的 我 再
慢慢 地 放大 一个 图像 看 局部 的 这样 我们 像 看 一个 东西 像 从 远处 走到 进处 这样 的 一个 过程 有 了 这样 的 时候 有 了 这样 的 一个 insight 或者 直觉 我们 就 觉得 是不是 AR 加 AR 这 一套 其实 对 视觉 来说 可能 有 比较 大 的 提升 空间 或者 有 比较 大
的 改善 空间 我们 来 对比 一下 就是说 Party 的 这个 Auto - Regress 它 其实 是 从左到右 从上到下 其实 我 后面 能 看到 前面 但 前面 能 看不到 后面 的 它 其实 有 这样 的 一个 Causal 的 依赖 关系 但 其实 视觉 我 刚刚 说 了 不是 这样 就是 我们 看 一个 东西 的 时候 就 是从 远处 走进 处去 看 的
时候 是 一个 整体 到 局部 的 这样 的 一个 过程 那 也 就是 我们 这个 工作 的 一个 Motivation 和 Insight 所在 我们 的 工作 就是 Wager Auto - Regress Modely 在 视觉 空间 上 进行 AR 的 去 生成 我们 工作 叫 VAR 然后 也 一样 的 就是 我们 人类 在 感知 图像 或者 进行 绘画 的 时候 一般来说 都 是 先 概览 全局 就是 一般 绘画 的 时候 先画 一个 整体 的
模板 出来 然后 我们 再 深入 细节 慢慢 地去 修复 或者 去 改善 这个 细节 这种 由出 道系 或者 是从 整体 到 局部 的 这种 思想 是 相对 比较 自然 的 对 视觉 来源 或者 我们 对 视觉 community 的 来源 是 非常 非常 intuitive 的 一个 想法 。 有 了 这个 想法 之后 我们
怎么 做 呢 ? 简单 的 就是说 我们 一样 的 , 我们 需要 一个 image tokenization , 第一步 。 第二步 呢 , 我们 需要 在 一个 尺度空间 上 , 因为 我 刚刚 说 了 , 它 其实 是 生成 的 时候 慢慢 放大 这样 的 一个 过程 , 那 其实 就要 在 尺度空间 上去 Auto Regress 生成 那 就 有 了 Tokenization 加 VAR 这套 这套 方式 对
那 但是 Tokenization 因为 不 一样 因为 我们 是从 低分辨率 或者 是 说 低 星图 慢慢 refine 到 高 星图 那 其实 就 需要 一个 Matic Scale 的 一个 VAE 那 就 有 了 VAR 的 一个 主要 的 两个 组成部分 一个 是 多 尺度 的 一个 VAE 第二个 就是 一个 尺度 上 生成 的 这样 的 一个 Cosal Transformer 对 当然 我 这块 还 没有 列出来 最后 的 就是 需要 一个 scaling 对 然后
做法 其实 也 很 简单 啊 就是说 我 对 图 我 对 一张 固定 分辨率 率 的 图 去 把 它 就是 首先 要 做 一个 离散 化 的 token map 然后 我 把 它 resize 到 不同 分辨率 去 做 tokenization 然后 有 了 一定 的 codebook 之后 我 就 把 它 转化成 连续 的 统一 再 统一 插之成
最大 的 分辨率 从 我 得到 一个 最大 的 分辨率 的 tokenmap 有 了 这样 之后 我 就 可以 有 了 这样 一个 表示 不同 分辨率 上 的 一个 VQ 的 token 对 那 有 了 这样 的 一个 不同 分辨率 的 能够 表示 图上 不同 分辨率 的 VQtoken 之后 呢 我们 就 可以 去 做 这样
的 一个 尺度 上去 cosal 的 一个 但是 一个 单 尺度 内 是 一个 并行 的 去 预测 的 一个 图像 生成 的 范式 简单 来说 的话 我们 有 一个 起始 token 然后 去 预测 一乘 一 的 一个 token map 然后 再有 一个 一乘 一 的 token map 然后 再 预测 比如说 二乘 二 的 token map 然后 预测 33 token map 直到 我们 预测 到 一个 最大
分辨率 token map 当然 这个 训练 的 时候 基本上 是 follow language model 的 训练 setting 用 的 是 closed entropy loss 因为 我们 这个 方法 其实 跟 ARM 机制 训练 基本 是 一致 的 所以 它 的 scanning 能力 是 得到 很 好 的 保障 的 可以 看 我们 结果 我们 其实 和 主流 的 或者说 和 现在 的 SOLTA 的 SOLAR Diffusion Model 做 了 一个 对比 然后 现在 SOLTA Diffusion
Model 大家 都 知道 SOLAR 的 Base Model 就是 DIT Model 就是 Diffusion Transformer 我们 也 和 AR 的 这种 SOLTA Model 像 像 AQGAN 或者 AQGAN 後 續 的 一些 改進 工作 RQTransformer 做 了 一些 對 比 我們 可以 看到 就是 我們 的 在 ImageNet 的 class condition 上達
到 了 一個 絕對 的 SOTA 並且 逼近 一個 理論 的 一個 下限 在 一個 ImageNet 512 和 256 上 我們 都 達 到 了 一個 比 較 好 顯著 的 一個 優勢 並且 擊敗 了 AR 的 這樣 的 一個 Model 並且 也 擊敗 了 Diffusion 的 SOTA 的 一個 效果 然后 我们 是 比 DITBASE MODEL 像 SOLAR 的 BASE MODEL 是 要 更好 的 并且 我们 是 有
一个 非常 非常 快 的 一个 INFERENCE SPEED 为什么 我们 会 有 很快 很快 的 一个 效果 呢 是因为 我们 其实 不 需要 很多 步 因为 一个 图片 尺度 可能 就 十个 或者 是 七八个 但 尺度 内 是 并行 出 的 所以 这个 它 的 预测 速度 是 非常 非常 快 的 同样 的 我们 去 和 SOLAR 或者
就是 STABLE DIFFUTION 3 我们 的 BaseModelDIT 做 了 对比 , 我们 工作 VR 展现出 了 更好 效果 , 经过 我们 ScaleUpModelSize , ScaleUpComputation 之后 , 我们 FID 可以 达到 1.8 , 逼近 理论 的 FID 下限 1.78 , 是 显著 比 DITBaseModel 是 要 好 的 , 他 的话 只有 FID2.1 ,
当然 FID 是 越 低 越 好 。 然后 第二 我们 有 更 快 的 速度 , 我们 在 256 分辨率 的 图 上面 只 需要 0.3 秒 就 可以 生成 一张 完整 的 图 速度 的话 是 一个 DIT 的 45 倍 在 512 分辨率 上 更是 DIT 的 81 倍 第三点 我们 有 更好 的 scaling 能力 如 左上角 所示 我们 的 model 在 scal up 到 3B 之后 它 其实 它 可以
不停 地去 linear scaling 但 DIT 它 没有 办法 去 就是 在 这个 ImageNet Class Condition 的 Benchmark 上 没有 办法 去 得到 一个 很 好 的 scaling 对 我们 是 可以 不停 地用 的 linearscaling 到 一个 FID 下线 的 对 最后 呢 就是 我们 有 一个 更 高效 的 数据 利用 我们 这个 model 只要 选 350 个 epoca 就 可以 媲美 或者 超过 DIT1400 个 epoca 的 效果
然后 语言 模型 最大 的 魅力 就是 涌现 能力 和 scaling lawscaling law 是 大家 目前 最 关心 的 我们 也 做 了 我们 的 VR 上 的 scaling law 的 一系列 的 实验 包括 我们 从 model size 从 几十 m 不停 地 scalp 到 几百 m 到 几 b 我们 去 验证 我们 这个 模型 在 scaling 上 的 一个 表现 可以 看到 我们 在 验证 几张 或 设计 上 这个 token 的
错误率 或者 clossian intubate 的 一个 ross 随着 scale 这个 模型 尺寸 和 计算 量 之后 可以 得到 一个 可 预测 的 下降 可以 看到 这个 曲线 可以 被 拟合 出来 对 然后 这个 可 预测 的 这个 相关性 呢 是 非常 非常 高 的 对 可以 看到 我们 其实 在 就是 一个 model size 去 scale up 一个 computation scale up 之后 效果 就是 可以 是 可 预测 的 对 这 也 是
语言 模型 或者 是 VR 我们 这个 工作 最 主要 的 一个 特性 之一 刚刚 是 一个 定量 的 分析 , 我们 现在 来到 定性 的 分析 , 就 可以 看到 我们 对 不同 的 图像 的 生认 效果 , 我们 可以 看到 我们 scan uptrain computation , 我们 scan uptrain transformer parameter ,
可以 看到 从左到右 , 从上到下 , 我们 model size 随着 逊 越来越 多 的 算力 , 包括 model size 提升 之后 , 它 的 效果 是 右下角 跟 左上角 或者 上面 的 或 左边 的 比 都 是 越来越 好 的 这 有 个 典型 的 case 可以 看到 就是 这个 脑电波 的 图 它 其实 随着 我们 的 Model Size scale up 上来 之后 可以 非常 好 的 模拟出 脑电波 的 分布
所以 我们 这个 Model 的话 其实 有 比较 好 的 scaling up 的 一个 能力 对 然后 Foundation Model 最 重要 的 一点 就是 ZeroShield Generalization 也就是说 我们 需要 在 下游 任务 上 做 泛化 同样 的 , 我们 只是 在 EVCNet 上去 做 一个 Pretraining , 我们 就 可以 在 一些 比较
主流 的 一些 视觉 的 一些 生存 的 下游 的 应用 上 , 或者 下游 的 任务 上去 做 一个 ZeroShotGeralization , 包括 一个 InPainting , 包括 OutPainting , 包括 一些 Fast Conditioned Editing 可以 看到 我们 结果 能 达到 还 不错 效果 注意 这个 是 我们 是 没有 在 一些 额外 的 训练 机上 去
训练 的 我们 只是 用 我们 这个 在 ImageNet100 多万 的 数据 机上 训练 一个 Model 去 做 一个 Zero Shot 的 一个 实验 同样 的 我 总结 了 一下 就是说 我们 我们 的 工作 的 highlight 就是说 使用 这种 多 尺度 的 自 回归 的 方式 然后 和 Next Scale Prediction 去 结合 提出 了 一个 全新 的 视觉 生成 框架 为 视觉 中 的 这种 自 回归 算法 设计 提供 一种 全新 的
思路 我们 不再 是 这种 光山 顺序 的 这种 AR 的 去 生成 图像 我们 是 这种 由小到大 由 低 纤到 高纤 就 逐步 捋 范 的 思路 去 生成 图像 这是 非常 符合 视觉 的 一个 本质 的 一个 框架 第二点 我们 的 VR 的 这个 scaling law 和 ZeroShield 的 这个 Zenialization 的 实验 我们 模拟 了 一个 大 语言 模型 的 一些 所 具有 的 优秀 特性 我们 OVR 也 同样 具备
第三点 就是 我们 我们 OVR 的 一个 性能 突破 使得 GPT 这种 Style 的 这种 自 回归 的 或者 视觉 自 回归 的 方法 在 图像 生存 领域 首次 超过 了 现在 的 SOTA Diffusion Mode 对 然后 我们 工作 呢 也 开源 了 包括 就是 VQ 的 VQ VAE 的 训练 包括 VQ Tokenization 包括 智慧 规模型 的
训练 code 就 已经 开源 了 在 推动 视觉 领域 的 AR 或 VR 的 领域 的 发展 下面 呢 也 放 了 一个 可视化 的 一个 case 可以 看到 我们 从 低 清到 高清 相对 比较 少 的 token 到 更 多 token 的 时候 它 生成 效果 会 逐步 收敛
到 一个 比较 好 的 一个 状态 PigToken 的话 只有 16 乘 16 个 Pigs 到 后面 的话 我们 有 256 个 Token 包括 16 乘 16 的 Token256 乘 256 的 这样 一个 分辨率 当然 我们 这个 方法 也 跟 其他 方法 做 了 一些 对比 比如说 我们 跟 AR 方法 对比 AR 本质 上 学习
数据 内 的 某种 一些 分布 或 秩序 文本 天真 是 从左到右 的 因果 顺序 达到 了 数据 和顺 法 一致性 催生 的 ARM 成功 但是 视觉 生成 并 不 这样 图像 自上而下 组行 扫描 这 顺序 并非 图像 最 自然 的 秩序 我们 感知 视觉 或者 物体 的 观 这种 是从 由 粗到 细 由 低频 到 高频 的 这样 的 一个 逻辑 顺序 这是 比较 make sense 的 因此 我们 AR 我们 观视
到 更好 的 基于 这个 框架 观视 到 更好 的 性能 更 合理 的 生成 速度 更 完备 的 scaling law 并且 VR 克服 了 AR 图像 生成 的 一些 泛化 问题 和 Diffusion 相比 , VR 的 Noise 更 直观 更 可 解释 , 从 模糊 到 清晰 , 从 低频 到 高频 。
Diffusion 可以 比 Diffusion 学习 到 更 高效 的 数据分布 , 并且 和 ALM 类似 , 因为 它 也 是 Tokenization - based 的 方法 , 它 可以 和 ALM 连在一起 形成 一个 完整 的 统一 的 模型 。
然后 和 一些 paradise 生成 的 方法 这块 也 可以 看到 像 Maskit VR 的话 都 可以 逐步 的 去 论范 效果 会 更好 对 然后 VR 的 Motivation Intuitive 更加 intuitive 对 然后 我们 工作 也 开源 了 我们 有 一个 工作 主页 包括 我们 代码 和 一些 codebase 和 model 都 开源 了 大概
是 在 一个多月 左右 吧 就是 我们 工作 然后 是 达到 了 一个 类似 3800 个 star 左右 然后 并且 收到 业界 非常 非常 多 的 一些 头部 的 一些 学者 然后 希望 follow 我们 的 工作 包括 现在 有 一个 GVR 的 control 以及 包括 GVR 的 一些 别的 组 的 一些 Text to image
的 一些 工作 。 对 , 然后 未来 的话 我们 更 多 的 关注 基于 这种 离散 空间 的 , 就是 Tokenization - based 的 方法 , 去 和 结合 AIM 去 生成 图像 , 然后 做 Text to image , 因为 这个 它 语言 模型 对 语意 的 理解 会 更加 精细化 , 做 更加 可控 , 所以 做 Text to image , Text to video , 未来 是 可以 见到 更好 效果 的
。 另外 就是 语言 模型 因为 有 语言 模型 的 嵌入 我们 就 会 很
。 另外 就是 语言 模型 因为 有 语言 模型 的 嵌入 我们 就 会 很 好 地 去 做 一些 统一 的 深深 和 理解 的 这样 的 一系列 的 模型 这 也 是 我们 未来 希望 做 的 一个 工作 这块 的话 就是 我们 可以 看到 视觉 这块 其实 分岔 比较 大 我们 可以 看到
视觉 这块 还 没有 走 到 统一 所以 这个 Dognization Based 方法 其实 为 未来 的 统一 和 深层 统一 理解 和 深层 提供 了 一个 非常 大 的 可能性 然后 也 使得 我们 看到 一个 AGI 的 希望 可以 看到 一系列 的 工作 之前 的 像 深层 和 理解 分 的 比较 开 有 一些 可能 是 生成 和
理解 统一 的 但是 它 更 多 的 是 通过 多个 模型 去 做 组合 非是 真正 的 一个 统一 的 模型 对 可以 看到 这 里面 列 了 一个 Case 像 OpenAI 最新 的 GPT4O 它 其实 就是 一个 在 Tokenization - based 离散 空间 - based 的 一个 统一 的 模型 可以 看到
它 除了 生成 效果 是 非常 惊艳 的 对 当然 这个 值得一提的是 现在 的 离散 空间 和 连续 空间 上 这个 路线 之阵 现在 讨论 的 越 非常 激烈 包括 Diffusion 和 AR 或者 VR 这个 路线 其实 大家 都 比较 关注 最后 能 走 到 什么 地步 當然 Meta 最近 發布 出來 的 工作 叫 Cameron , 他們 也 就是 說 , Pretune 階段 , 從 Scratch Pre - tune 的 時候 ,
不僅 是 Pretune 語言 模型 , 還 Pretune 視覺 Tokenization , 從 而 使得 Tokenization 和 語言 的 這個 , 像 BP , Tokenization 做 了 一定 程度 上 對 齊 , 從 而 使得 它 可以 不僅 做 生成 和 理解 , 可以 看到 , 其實現 在 頭部 的 一些 研究部 門都 在 Follow 這種 統一 生成 和 理解 的 setting , 並且 是 基 於 比善 空間 上 的 , 對 。 所以
未来 我们 这个 VR 的 框架 也 会 follow 也 会 去 构建 这样 的 一个 统一 和 深深 理解 这样 的 一个 框架 我 的 分享 差不多 就 这些 现场 有没有 同学 想 跟 江 亦 交流 一下 他们 这个 新 的 范式 VR
我来 问个问题 吧 因为 那个 VR 这个 范式 跟 Diffusion 确实 还是 非常 不 一样 但 它 比较 这个 依赖 Tokenizer 那会 不会 因为 这个 离散 Tokenizer 会 带来 一些 图片 生成 的 一些 质量 的 损失 这个 你 是 怎么 考虑 的 我 是 觉得 目前 在 model size 和
codebook 比较 小 情况 下 是 必然 的 但是 随着 我们 算力 发展 我们 从 未来 的 两三年 可 我 看 现在 未来 两三年 它算力 会 发展 越来越快 因为 我们 现在 很难 想象 我们 现在 能 用 比如说 一个 实验 几百块 A100 或者 是 H100 但是 在 三年 前 我们 当时 能训 几百块 V100 都 很 难 想象 所以 算力 发展 是 非常 快 的 到 未来 codebook 可以 做到 非常 大 model size 可以
做到 很大 所以 离散 的 始终 一定 是 能 追赶 上 连续 的 codebook 对 所以 我 觉得 这个 是 这个 离散 空间 上 scaling 这个 事情 是 必然趋势 那 现在 既然 VR 也 提到 了 一些 scaling law 然后 比如说 对 一些 刚 开始 接触 这个 方法 的 同学 来说 他 在 训练 上面 相比 diffusion 有没有 优势 因为 我们 看起来 他
的 model 越大越 好 如果 在 实验室 做 这个 事情 一般 能够 达到 什么样 的 效果 这个 你们 有没有 一些 我 是 提供 两个 思路 第一个 思路 的话 就是 这个 transformer scaling 之前 首先 很 依赖 这个 tokenization 那 tokenization 呢 其实 不太 需要 那么 多
的 算力 所以 很多 时候 在 学校 可以 做 一些 VQVAE 或者 是 一些 VAE 相关 的 工作 去 看 这个 image 上 的 一个 tokenization 可以 达到 怎么样 的 一个 天花板 然后 这 上面 的话 就是 算力 其实 要求 没 那么 多 这 是 我 的 一个 建议 而且 最近 可以 看 出来 最近 这个 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组
组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组组 组 第二点 的话 就是 可以 其实 可以 看到 stable diffusion 出来 之后 有 很多 下游 的 一些 各种 应用 的 出现 包括 contournet 等等 对 然后 其实 我们 如果 是 我们 VR 的 T2S model release 之后 可以 做 很多 的 下游 应用 包括 一些 editing 包括 一些
像 刚刚 说 的 一些 in - painting out - painting 等等 相关 的 下游 出 很多 跟 language model 协同 的 更 多 的 一些 任务 对 这 是 我 觉得 两个 方向 对 那 我们 再次 感谢 那个 江亦 同学 给 我们 带来 的 分享 我们
下 一个 分享者 是 来自 快手 的 薛 克林顿 同学 然后 他会 给 我们 带来 一些 他们 在 设计 领域 里面 的 一些 思考 跟 实践 那 我们 邀请 薛 克林顿 给 我们 带来 分享 OK 大家 好 我 是 薛 克林顿 然后 目前 在 快手 工作 那么 初次见面 呢 大家 可能 对 我 这个 名字 的 兴趣 可能 超过 了 对 我
这个 演讲 题目 的 兴趣 但是 大家 不用 着急 啊 等会儿 可以 直接 来线 下来 查 我 的 身份证 OK 言归正传 今天 主要 想 跟 大家 聊一聊 在 我 个人 的 视角 下 文身 图大 模型 对于 业务 和 技术 上会 有 什么样 的 事情 那么 希望 可以 抛砖引玉 给 大家 在 AI 新 时代 带来 一些
思考 先 来 介绍 一下 自己 我 个人 是 18 年 加入 快手 的 在 加入 快手 之后 呢 做 过 一些 短 视频 生产 相关 的 业务 那么 我 去年 转岗 到 AIGC 体效 方向 目前 是 快手 Design AI 平台 的 负责人 那么 除了 薛 克林顿 这个 名字 呢 我 在 互联网 上 还有 一个
名字 是 何时 希 这 是 我 自己 运营 的 一个 个人 IP 目前 已经 有 超过 十万个 粉丝 对 那么 这些 粉丝 来源 其实 主要 是 得益于 前年 ChatGPT 火爆 的 时候 我 制作 的 一个 百万 级别 下载量 的 VSCode 插件 它 的 名字 叫 ChatGPT 中文版 对 目前 这个 插件 的 下载量 还
在 继续 增加 OK 牛 吹 完 了 那么 我们 来 上 一点 干货 今天 这个 目录 呢 就是 我们 的 那个 干货 的 目录 主要 分为 四块 那么 第一块 呢 我们 会 首先 介绍 一下 快手 AIGC 提效 的 业务 背景 然后 会 引出 Design AI 这个 平台 然后 我们 会 了解 到 Design AI 平台 的 业务
架构 和 一些 技术 的 架构 接着 我们 会 了解 到 在 平台 的 建立 过程 中 遇到 了 一些 问题 难点 和 解决方案 那 最后 再来 让 大家 看 一下 我们 是 怎么 和 老板 画饼 的 OK 第一 part 是 业务 背景 那么 聊到
业务 背景 呢 第一个 问题 就是 什么 是 纹身 图大 模型 那么 这个 问题 在 前面 几个 老师 应该 已经 都 介绍 过 了 所以 我 这边 简单 说 一下 因为 业界 现在 目前 已经 有 了 很多 不同 的 种类 的 纹身 图大 模型 了 比如说 Stable Diffusion , Meter Journey 还有 那个 Open IT 那个 出品
的 DALI 模型 以及 我们 快手 出品 的 可图 大 模型 那么 他们 都 是 基于 Diffusion Model 那 刚刚 那个 江亦 老师 也 放 了 这 张图 可以 说 是 非常 英雄所见略同 了 OK 那 了解 完 纹身 图大 模型 是 什么 那么 我们 第二个 问题 就是 纹身 图大
模型 是 如何 重构 设计 领域 的 这 也 是 我 在 演讲 题目 上 给 大家 留下 的 问题 那么 很 幸运 在 过去 的 一年 里 呢 Design AI 平台 在 这方面 有着 许多 的 实践 所以 我们 将 实践 分为 了 三个 方向 分别 是 商业化 本地 生活 和 电商
那么 在 商业化 的 场景 下 呢 我们 主攻 两个 方向 分别 是 短 视频 广告 以及 直播 广告 比如说 在 快手 上面 会 有 快 招工 的 那么 在 广告主 投放 广告 的 时候 呢 就 会 使用 到 我们 左边 这 张图 就是 我们 生产 出来 的 AI 广告 图 那么 在 本地 生活 也 有 两个 方向 分别 是 AI 贴纸 和 实品 广告 图 的 生成 那 左边 这张
视频 中 的 上面 的 AI 贴纸 就是 我们 平台 生成 的 那么 在 电商 场景 下 目前 用 的 比较 多 的 就是 一些 商品 图 的 生成 以及 一些 店铺 装修 模板 的 生成 OK 聊完 业务 场景 那么 我们 其实 可以 得出 要 想 重构 设计 领域 的话 我们 有 三个 要点 第一个
要点 就是 人效 的 提升 也 是 最 重要 的 一点 在 我们 内部 呢 有 一个 人效 的 提升 表 这些 表都 是 设计师 自己 去 填写 的 然后 我 从 里面 找 了 几个 例子 我们 发现 体效 幅度 还是 非常明显 的 某 一些 小 的 业务 场景 比如说 虚拟 人物 的 生成 甚至 能 达到 400% 的
人效 提升 那么 第二个 点 就是 质量 的 跃升 那么 我们 以 直播 广告 直播 RTB 广告 的 项目 为 例子 就 左边 是 老 的 广告 图 右边 是 新 的 广告 图 那么 上线 了 那个 AI 广告 图 之后 我们 整个 直播 RTB 广告 的 点击率 上升 了 15 个 百分点 所以 可以 这
也 证明 了 在 某些 场景 下 AI 对 广告 图 质量 的 生成 提升 是 非常明显 的 最后 一个点 比较 抽象 我 把 这个 称之为 范式 的 颠覆 就 像 汽车 的 自动 驾驶 领域 里面 会 有 L1 到 L5 个 级别 一样 我 认为 在 互联网 的 设计 领域 也 可以
分为 几个 阶段 分别 是 L0 L1 L3 和 L5 那么 随着 级别 的 增大 呢 AI 在 执行 AI 在 那个 设计 中 的 比重 就 越来越 大 最终 会 达到 一个 设计师 只 需要 出 规范 然后 AI 做 执行 的 这样 一个 程度 目前 在 我们 的 业务 中 主要 是 以 L1
和 L3 这 两个 级别 为主 前面 我们 提到 的 直播 RDB 项目 就是 目前 是 AI 为主 然后 运营 为辅 OK 我们 看 完 了 业务 场景 再来 聊 一下 整个 Design AI 平台 的 平台 架构 我们 平台 的 架构 如图所示 主要 分为 三层 最 顶层 就是 业务 方 然后 中间
是 业务 功能 最底层 是 一个 基础 的 能力 那 我们 前面 提到 的 商业化 呀 电商 啊 本地 生活 都 是 属于 最 顶层 的 业务 方 我们 目前 总共 有 七个 业务 方 OK 除了 业务 能力 然后 我们 在 业务 能力 上 有 十个 业务 能力 除了 一些 比较 基础 的 像 团队 空间 啊 历史 任务 啊 等等 我们 最 主要 的 能力 有 五个
分别 是 智能 生成 创意 画布 智能 运营 智能 应用 还有 模板 中心 接下来 我会 通过 一个 两分钟 的 视频 给 大家 介绍 一下 这 几个 比较 重要 的 功能 应该 是 一个 视频 是不是 可以 播放 一下 那个 后台 的 同学 是不是 可以 播放 一下 看 一下 可以 点击 一下 对 大家 稍等一下 可以 回想 一下 我 前面 提到 的 这些 东西
OK 我们 回来 了 我们 看 一下 其实 这 就是 我们 产品 页面 然后 有 一个 工作 空间 那么 进入 工作 空间 之后 呢 就 会 有 各种各样 的 AI 能力 那么 在 智能 生成 的 那个 那个 空间 里面 我们 就 可以 使用 到 四种 自大 类 几十种 不同 的 模型 里面 会 有 比如说 可图 是
我们 自己 自研 的 模型 还有 那个 Mid Journey 的 模型 还有 一些 Stability Fusion 的 模型 然后 因为 模型 之间 支持 的 提示 词 和 配置 不太 一样 所以 我们 做 了 一个 统一 的 协议 让 用户 能够 比较 好 的 理解 这些 模型 的 提示 词 创意 化布 的 功能 主要 是 用于 支持 电商 商品 场景 的 搭建 我们 事先 搭建 了 许多 不同 的 样 的 场景 供 用户 进行 使用 这
可以 看到 是 一个 商品 的 场景 除了 实物 商品 我们 也 可以 给 服饰 新增 一些 AI 的 模特 这个 就是 最终 渲染 出来 的 效果 还是 非常 不错 的 第三个 功能 是 智能 运营 在 智能 运营 的 功能 中 设计师 可以 通过 一些 预制 的 AI 模板 来 进行
模板 的 裂变 可以 看到 这是 一个 我们 制作 的 可口可乐 和 DDI 的 广告 的 图 最终 出来 的 效果 就是 几种 不 同样 的 图 那么 对于 裂变 出来 的 图片 可以 直接 编辑 可以 直接 使用 也 可以 在 我们 的 编辑器 里面 编辑 我们 的 编辑器 是 对标 了 Figma 的 编辑器 它 支持 了 各种各样 的 编辑
功能 那么 还有 一个 功能 就是 智能 应用 在 智能 应用 中 我们 通过 AI 工作 流 整合 了 各种各样 的 AI 的 原子 能力 得到 更 高级 的 能力 这个 视力 就是 一个 图片 高 进化 的 能力 那 可以 看到 我们 整个 高 精化 的
效果 还是 非常 不错 的 然后 我们 的 智能 应用 支持 了 一个 叫 Confi UI 的 工作 流 可以 直接 导入 进行 编辑 这样 就 方便 了 一些 比较 高阶 的 设计师 把 他们 的 工作 流 导入到 我们 平台 上 那么 最后 一个 大 的 业务 能力 就是 模板 中心 然后 里面 沉淀 了 我们 业务 中 的 各种 模板 包括 前面 提到 的 智能 生成 的 模板 智能 运营 的 模板 还有 创意 画布 的 模板
那 其实 刚刚 我们 提到 了 很多 的 业务 能力 那 支撑 我们 这些 业务 能力 呢 就是 最底层 的 基础 能力 这些 基础 能力 包括 数十种 AI 能力 AI 模型 还有 AI 工作 流 那么 我们 的 基础 能力 其实 是 按 4 加 1 来 区分 的 左边 就是 四类 基础 能力 然后 这些 基础 能力 可以
通过 一些 工作者 组合 形成 高阶 的 AI 工作 流 然后 再 往上提 供给 那个 业务 功能 进行 使用 那么 看 完 业务 架构 呢 我们 再 来看 一下 简单 地看 一下 整体 的 技术 架构 啊 技术 架构 和 业务 架构 一样 也 是 分为 三层 那 最 顶层 就是 我们 的 业务 调用 方 包括 了 那个
电商 商业化 服务 那个 本地 生活 的 服务端 还有 我们 自己 的 前端 还有 一些 浏览器 的 插件 那么 再往 下 呢 就是 Design AI 的 主 服务 里面 包括 了 各种各样 的 逻辑 的 组合 比如说 模型 的 管理 啊 AI 简点 的 爬 取 啊 还有 一些 全线 管理 之类 的 东西 那么
最底层 呢 就是 各种各样 的 AI 能力 那么 比如说 我们 会 调用 到 外部 的 一些 公司 外部 的 一些 能力 前面 提到 Meter Journey 它 就是 外部 的 一些 能力 还有 一些 Open AI 的 能力 那么 我们 也 会 调用 到 我们 自己 部署 的 比如说 Stability Fusion 的 能力 还有 那个 AI 工作 流
的 能力 那么 最后 就是 我们 会 调用 到 一些 公司 级 的 能力 比如说 可图 的 大 模型 的 服务 还有 一些 翻译 的 服务 再 加上 我们 最后 还有 一些 公司 内部 的 中间件 OK 其实 整个 Design AI 平台 从 零到 一 的 研发 过程 中 呢 我们 遇见 了 许多 问题 啊 所以 我 这里 主要 挑 了 三个 点来 和 大家
进行 分享 那么 三个 难点 分别 是 通用 模型 协议 的 定义 然后 AI 工作人员 的 构建 以及 跨平台 AI 模板 渲染器 的 研发 那么 为了 统合 我们 前面 说 到 的 各类 模型 实现 无缝 集成 呢 我们 实现 了 一个 通用 的 模型 协议 那么 前面 我们 提到 了 在 Designi 平台
中 支持 了 四类 几十种 模型 就 像 图 中 一样 那 如果 我们 一个 一个 来 接入 的话 那 成本 就 非常 高 啊 同时 不同 的 模型 都 会 有 自己 的 使用 方式 自己 的 那个 提示 词 也 是 不同 的 那 就 像 秦始皇 在 统一 六 国 之前 每个 国家 都 会 有 自己 的 文字 一样 对于 用户 来说 理解 的 成本 非常 高 那么
所以 我们 必须 要 用 一个 通用 协议 来 实现 在 模型 上 的 书同文 车同轨 那么 有 了 方向 之后 呢 那么 我们 的 方案 其实 不太难 我们 以 Mind Journey 的 最终 我们 会以 Mind Journey 的 提示 词 协议 为 基础 定制 了 一个 通用 协议 我们 把 通用 协议 分成
了 四个 部分 可以 看 下面 这 半张 图 就是 第一个 部分 就是 电图 那 第二个 部分 就是 提示 词加 权重 那 第三个 部分 就是 配置 和 选项 比如说 这边 的 杠杠 AR 就 表示 我们 最终 需要 图片 的 图片 比例 最后 一个 部分 就是 模型 的 种类 模型 的 单点 模型 的 名字
那么 这样一来 呢 当 用户 输入 我们 各种 不同 模型 的 提示 词 之后 到 我们 的 前端 提示框 之后 呢 我们 就 会 通过 我们 前端 的 一个 状态机 将 这个 这些 提示 词 转换成 用户 可以 理解 的 UI 形式 比如说 中间 这个 提示 词框 它 会 把 提示 词 正向 提示 词 变成 绿色 负 向 提示
词 变成 红色 然后 右下角 会 有 一些 电 图 那么 最后 呢 我们 的 通用 模型 协议 这个 前端 UI 框 就 可以 转换成 我们 通用 模型 协议 当然 这个 转换 是 双向 的 然后 这个 通用 模型 协议 呢 就 会 发送到 我们 的 后 端 调用 到 最终 的 一个 AI 能力 的 模型
那么 有 了 各种各样 的 单点 的 AI 能力 之后 我们 发现 这些 模型 都 有着 自己 的 缺点 比如说 SD 生成 的 图片 它 可能 效果 比较 差 但是 它 控制能力 很 好 因为 我们 可以 通过 ControlNet 来 实现 对 它 的 精确 控制 那 Meter 真理 就 正好 相反 了 所以 此时 我们 就 需要
有 一个 东西 能够 将 各种各样 的 AI 能力 来 进行 流程 的 聚合 形成 更 高阶 的 能力 然后 实现 能力 的 涌现 这 就是 我们 的 AI 工作 流如图 是 一个 Conf UI 实现 的 纹身 图 的 功能 的 AI 工作 流它 的 工作 其实 分成 五个 步骤
首先 我们 需要 选定 一个 SD 的 大 模型 然后 这个 模型 里面 其实 它会 有 好几个 不同 的 部分 包括 Model Clip 还有 VAE 然后 我们 会 通过 Clip 模型 将 我们 输入 的 提示 词 变成 做 一个 embedding 做 一个 向 量化 然后 我们 会 生成 一个 空白 的 Latin Space 有 了
这些 东西 之后 我们 在 我们 的 采样器 和 代表 器 中将 Model 还有 文字 向量 对 空白 的 Latin Space 做 一个 降噪 过程 最终 得到 的 结果 我们 通过 VAE 解码 出 了 我们 最终 的 图片 效果 那么 所以 通过 对 单个 AI
工作 流 拆解 我们 了解 到 要 实现 更多更好 的 质量 更 高 的 工作 流 的话 那么 我们 就 需要 更 多 的 模型 需要 更 多 的 节点 那 如图所示 呢 这 就是 我们 平台 上 最底层 有 一个 模型 管理器 然后 这里 管理 了 100 家 的 各种各样 的 模型 包括 一些 文身 图大 模型 啊 还有
一些 语言 大 模型 甚至 还有 一些 那个 音频 模型 图片 高级化 的 模型 那么 这些 模型 呢 可以 通过 我们 从 全网 收集 到 的 一万家 的 节点 这些 不同 功能 的 节点 呢 就 可以 加载 和 运行 我们 前面 提到 这些 模型 当然 除了 运行 一些 这些 节点 除了 运行 一些 AI 的 能力 还 可以
运行 一些 逻辑 能力 比如说 图片 的 加载 啊 实现 一些 代码 的 逻辑 也 是 可以 的 那么 最终 这些 节点 和 模型 呢 就 支撑 起 了 我们 更加 低成本 的 实现 市面上 一千家 的 各种各样 的 AI 工作 流 因此 其实 就 像 我们 大脑神经 元 的 那个 连接 或者 是 我们 大 模型
的 那个 神经网络 一样 通过 发动 我们 个人 的 智慧 我们 可以 将 基础 的 AI 能力 快速 组合成 更 高级 的 AI 能力 这样 这 就是 我们 AI 工作 楼 的 意义 让 能力 进行 一个 涌现 OK 我们 前面 聊 了 很多 AI 工作 楼 的 一些 定义 啊 意义 啊 那
我们 再来 聊 一聊 AI 工作 楼 是 如何 集成 集成 到 我们 的 design 中 的 我们 是 如何 进行 框架 选型 的 那么 在 集成 过程 中 呢 我们 总共 调缘 了 三款 业界 比较 所 抱 的 那个 开源 框架 分别 是 Web UIConfy UI 还有 Invoke AI 在 调研 困难 中 呢 我们 通过
我们 按照 集成 速度 灵活 度 开发者 生态 还有 那个 应用 场景 和 用户数量 这 几个 角度 来 对 这些 框架 进行 了 一个 评判 那 结果 如下 其实 红色 就 代表 着 比较 弱势 的 方面 那么 先 来看 一下 文生 图 开源 平台 的 王者 Web UI 估计 对文生 图 做 过 一些 实践
的 同学 都 使用 过 这个 框架 我 将 其 称之为 开源 文生 图 平台 的 王者 是 为什么 呢 首先 它 在 开发者 生态 还有 应用 场景 还有 用户数量 上面 是 远远 是 遥遥领先 的 但是 它 的 改造 工程量 比较 大 而且 不 支持 我们 前面 提到 的 AI 工作 流 所以 说 我们 首先 就 pass
了 这个 方案 那么 再 来看 一下 conf UI 在 前面 我们 举 的 那个 例子 就是 基于 conf UI 的 它 是 为 AI 工作 流而生 的 也 可以 说 这个 框架 将 我们 的 纹身 图 AI 工作 流 带入 到 了 一个 新 的 时代 那么 从 各种 维度 来说 它 也 没有 一个 明显 的 短板
那 最后 再 来 看看 Invoke AI 这个 框架 其实 既 集成 了 类似 于 Web UI 它 能够 直接 出图 的 能力 它 又 集成 了 一些 AI 工作 流 的 能力 某种程度 上 来说 它 结合 了 两者 的 优势 但是 但是 这 两种 功能 它 又 没有 做到 极致 所以 说 其实 成也萧何 败也萧何 所以
我 将 其 称为 中庸 的 王者 它 在 那个 开发者 圣诞 还有 应用 场景 以及 用户数量 上 都 是 最少 的 OK 那 我们 在座 的 同学 应该 多多少少 都 使用 过 比如说 VS Code 或者 是 JetBrains ID 之类 的 产品 他们 都 有 插件 系统 那 Conf UI 也
不 例外 但是 它们 之间 有 一个 明显 的 区别 就是 前者 会 有 一个 插件 的 市场 这 就是 VS Code 的 插件 市场 那么 后者 就 没有 这个 东西 所以 大部分 插件 的 开发者 都 会 将 自己 比如说 自己 插件 的 源码 上 传到 GitHub 上面 虽然 客观 上 说 去 中心化
呢 让 ConfUI 的 插件 生态 在 前期 有 了 一个 野蛮 的 生长 但是 同时 也 带来 两个 严重 的 问题 我 说 了 一句 顺口 流 就是 插件 下载 难 然后 流程 复用 凡 那么 比较 前面 我们 看到 的 是 一个 简单 的 AI 工作 流 但是 比较复杂 的 AI 工作 流 呢 它们 一般
都 涉及 到 几十 上 百个 节点 那么 这些 节点 中 呢 它 又 依赖 着 十几 款 二十款 插件 那么 所以 说 对于 插件 的 下载 就 成为 了 阻碍 普通用户 的 一个 门槛 了 当然 这些 节点 和 插件 还 可能 会 依赖 各种各样 的 模型 那 这些 模型 动辄 十几 G 的 大小 让 大家 都
苦不堪言 那么 所以 就是 插件 的 下载 还有 模型 的 下载 导致 了 一个 AI 工作者 的 问题 就是 在 复用 和 分享 的 过程 中 的 流程 是 非常 繁琐 的 所以 为了 解决 这 一个 难点 我们 做 了 这样 一个 实施 的 节点 收集器 我们 先看 图片 的 上半 部分
首先 我们 会 有 一个 爬虫 去 收集 比如说 Github 或者 是 一些 插件 网站 的 一些 信息 然后 这些 信息 这些 插件 会 被 首次 解析 解析 出 一些 比如 解析 出 一些 基础 的 数据 比如说 插件包 依赖 节点 名称 版本 之类 的 这些 东西 然后 这些 东西 就 会上 传到 我们 自己 的 CDN 和 数据库 中
然后 我们 的 主 服务 会 便利 我们 爬取 到 了 每 一个 插件 将 它 自动化 地 安装 到 Conf UI 的 主 服务 上 那么 这样一来 我们 将 这个 步骤 称之为 运行 时 解析 因为 我们 此时 就 可以 获取 到 每 一个 节点 的 它 输入输出 的 具体 的 类型 以及 具体 的 类型 名字
啊 各种各样 的 信息 甚至 是 它们 依赖 的 一些 模型 的 信息 那么 前面 这个 流程 可能 比较 抽象 我们 直接 与 分辨率 提升 这个 插件 来举 例子 我们 第一步 就 可以 直接 通过 爬城 获取 到 它 的 比如 作者 名字 对 吧 然后 插件包 的 名字 还有 一些 插件 的 名称 那么 第二步 我们 将 插件 自动化
的 安装 到 Config UI 的 服务器 上 之后 不管 是 在 他们 的 前端 那个 界面 也好 或者 是 在 他们 的 后 端的 接口 上 也好 我们 就 可以 获取 到 一个 JSON 的 列表 这个 Json 的 结构 就 完整 地 描述 了 每个 节点 的 详细信息 了 那么 解决 了 插件
信息 的 获取 的 这个 难题 那么 在 Config UI 的 集成 过程 中 呢 还 存在 着 两个 问题 第一个 就是 节点 不同 插件 之间 他们 的 节点 名称 可能 会 产生 冲突 第二个 问题 就是 插件 之间 他们 的 Python 包会 有 冲突 所以 说 为了 解决 这 两个 问题 呢 我们 做 了 一个 这样 的
镜像 流水线 首先 呢 我们 的 主 服务 会 通过 前面 获取 到 的 大量 的 节点 信息 和 差点 信息 计算 出 一个 无 冲突 的 插件 列表 那么 这里 涉及 到 了 前面 所有 插件 之间 Python 版本 的 依赖 的 偶合 和 那个 冲突 的 去 虫 然后 我们 会
通过 一个 镜像 的 流水线 将 这些 插件 打包 到 COMFUI 的 基础 镜像 中 那 这个 打包 过程 其实 又 分为 四个 步骤 第一个 步骤 就是 将 所有 的 插件 列表 的 压缩包 下载 到 这个 镜像 里面 然后 我们 会 安装 前面 计算出来 的 无 冲突 的 依赖 列表 然后 我们 会 对 所有
插件 做 一个 自动 的 初始化 最终 我们 就 获取 到 了 一个 最优 的 插件 镜像 那么 这个 镜像 就 可以 可以 执行 成为 一个 服务 作为 一个 工作 流 的 执行 引擎 提供 给 我们 的 主 服务 进行 调用 最后 再 来说 一下 我们 对 AI 工作 流 三个 阶段 的 期望 第一个 阶段 就是
主要 是 为了 满足 我们 内部 的 服务 因为 我们 发现 在 外部 没有 一个 非常 好 的 流程 能够 将 Config UI 作为 一个 工作 流 的 执行 引擎 来 集成 所以 说 这个 工作 我们 已经 实现 了 那么 第二个 阶段 呢 就是 我们 期望 将 我们 的 AI 工作 流 的 集成 方式 这个 方案 还有
我们 前面 积累 的 全量 的 节点 信息 展规 给 开源 社区 让 大家 能够 快捷 无痛 地 集成 我们 前面 受到 这个 AI 工作 流 的 引擎 那 这个 阶段 正在 进行 中 那么 最后 一个 阶段 就是 我们 期望 我们 Design AI 开始 对外 之后 我们 吸引 到 更 多 的 插件 开发者 加入 到 Design AI 的 那个 工作 流 生态 中
那 如果说 我们 前面 说 到 的 AI 工作 理由 它 是 在 时间 上将 一系列 的 AI 能力 进行 组合 的话 那么 我们 的 AI 模板 渲染 引擎 它 就是 在 空间 上 对 AI 能力 进行 组合 那 我们 这里 通过 两个 关键字 来 描述 我们 的 渲染 引擎 那 就是 跨越 平台 创意 裂变 那 在
前面 的 视频 介绍 里 呢 我们 介绍 了 智能 运营 的 功能 那 在 这个 功能 里 呢 设计师 可以 通过 我们 对标 v gamma 的 一个 编辑器 来 创建 一个 模板 然后 这个 模板 里面 就 会 有 一些 AI 图层 还有 一些 文字 这些 东西 这是 一个 我们 业务 上 实际 使用 到 的 模板
当 这个 模板 创建 好 之后 呢 那么 消费 模板 的 用户 他们 一般 是 一些 比如说 运营 的 同学 那么 通过 可以 通过 简单 的 填空 来 改 一些 文案 甚至 是 改 一些 我们 AI 图层 的 提示 词来 进行 一个 模板 的 裂变 就 点击 那个 AI 制程 就 可以 进行 模板 的 裂变
那么 整个 模板 其实 在 数据 上 呢 就是 我们 定义 的 一个 JSON 的 结构 那么 这个 结构 我们 就 将 其 称之为 我们 的 模板 协议 目前 呢 这个 模板 协议 其实 支持 了 四个 图层 还有 一些 画布 属性 图层 的 组合 属性 以及 一些 容器 的 布局 那么
由于 由于 AI 图层 需要 调用 到 后 端 渲染 的 能力 就是 我们 前面 提到 的 各种各样 的 AI 深图 的 能力 所以 在 前期 呢 整个 模板 的 渲染 方案 我们 采用 的 是 前端 做 一个 预 渲染 然后 将 整个 预 渲染 的 那个 信息 发送到 后端 后 端 做 一个 整体
渲染 的 逻辑 那么 如图所示 呢 我们 前面 提到 的 模板 协议 在 前端 渲染 的 时候 基于 的 是 一个 叫 Konova 的 渲染 框架 那 这个 渲染 框架 它 支持 一些 自定义 渲染 函数 所以 我们 会 将 一些 性能 比较 敏感 的 渲染 的 代码
用 Rust 来 写 那么 前端 渲染 完毕 之后 呢 在 触发 我们 的 模板 裂变 之前 前端 就 会 将 每 一个 图层 渲染 成 一系列 的 那个 图片 裂表 那么 交给 后端 那 这 一步 呢 就是 我们 前面 所谓 的 预 渲染 那后 端 拿到 这个 图片 裂表 之后 呢 首先 就 会 通过 我们 的 AI
深图 的 服务 将 AI 图层 生成 一张 图片 生产 出来 这张 AA 图片 之后 呢 就 会 将 所有 图片 进行 一个 叠加 形成 我们 最终 渲染 到 的 渲染 出 的 后 端 渲染 的 图片 虽然 看起来 整个 流程 是 可以 跑 起来 的 但是 中间 还 存在 着 一些 问题 那 最 典型
的 两个 问题 就是 前后 端 偶合 所见 不 所得 那 前后 端 偶合 很 好 理解 因为 预 渲染 的 关系 所以 说 后 端 是 无法 脱离 前端 来 自己 渲染 最终 图片 的 所以 说 这样 就 极大 的 限制 了 我们 业务 的 发展 因为 有些 业务 方他 是 需要 我们 的 后 端 API 来 获取 到 我们 模板 裂变 的 能力 的 那 所 见 不 所得 的 意思
其实 就是 前端 在 渲染 展示 的 时候 和 后 端 渲染 出来 的 图片 它们 两个 可能 是 不 太 一样 的 原因 就是 因为 两边 的 代码 它们 不是 一份 所以 又 导致 了 可能 文字 它会 有 一些 位置 的 变化 或者 是 字号 的 变化 对 所以 说 为了 解决 前面 我们 提到 的 各种各样 的 问题 我们 就 自研 了 一个 叫 跨平台 的
AI 模板 渲染 方案 那 首先 渲染器 的 核心 就是 我们 前面 的 前端 渲染 的 代码 这 一块 是 不变 的 然后 我们 给 将 这个 渲染器 的 代码 抽出来 了 然后 新增 了 热 更新 和 那个 白本 控制 这 两个 功能 那么 这样一来 呢 我们 的 渲染器 它 的 代码 就 可以 同时
运行 在 浏览器 环境 也 可以 同时 运行 在 Node 环境 然后 因为 我们 后端 是 使用 Node 开发 的 所以 说 这 一套 代码 就 同时 可以 运行 在 前后 端 了 那么 接着 我们 再 从 右 往 左 看 我们 从右 往 左 看 就是 前端 的 用户 和 一些 API 调用 方 就 可以 通过 我们 首先 通过 我们 暴露 出来 的 一些 AI 能力 比如说 动态 文案
啊 智能 配色 啊 还有 AI 深图 这些 能力 然后 这些 东西 调用 之后 呢 就 可以 去 修改 我们 模板 暴露 出来 的 一些 参数 比如说 题词 啊 那个 文字 啊 图片 啊 这些 东西 那 最终 呢 我们 将 所有 的 模板 暴露 出来 的 参数 再 加上 我们 的 模板 统一 价格 渲染器 最终 就 渲染 出来
了 我们 最 上面 这 两张 图 可以 看到 他们 他们 的 框架 是 类似 的 但是 他们 的 比如说 配色 各种 效果 比 前面 一个 方案 效果 是 好 很多 的 所以 这个 方案 其实 不仅仅 解决 了 我们 前面 提到 的 两个 问题 但是 它 还 更加
通用 更加 高效 更加 智能 让 我们 整个 方案 在 后期 面 面对 着 业务 需求 暴涨 的 这样 一个 问题 有 了 一个 比较 好 的 解决方案 那 最后 呢 给 大家 吹牛 聊一聊 Design AI 平台 未来 的 展望 对 那么 其实 我们 未来 展望 只有 一个 那 就是 我们 期望 加 Design
AI 平台 打造 成为 一个 AI Native 的 设计 平台 那 什么 是 AI Native 呢 我 相信 在座 的 各位 可能 都 有 自己 的 一个 理解 那 如何 打造 一个 AI Native 的 设计 平台 呢 我 认为 需要 有 三个 转变 那么 第一个 转变 其实 也 是 最 重要 的 一个 转变 就是 我们 的 产品 的 需要 在 范式 上 进行 转变 我们 在 打造 产品 的 过程 中 需要 将
观念 从以 AI 为辅 到 转变 以 从 以 AI 为主 那么 ChadGPZ 肯定 就是 大家 最 熟悉 的 一个 例子 了 也 是 最好 理解 的 一个 例子 它 的 所有 的 功能 都 是 围绕 着 它 的 AI 大 模型 来 展开 的 那么 第二点 我 认为 是 我们 的 产品 形态 上 需要 做 一个 转变 那 如果说 我们 第一点 是 一个
路线 方向 上 的 转变 的话 那 这 一点 就是 方法论 上 的 转变 因为 我们 传统 的 产品 形态 都 是 会 给 用户 大量 的 让 其 演化 缭乱 的 一些 功能 然后 我们 期望 用户 从 大海捞针 一样 从 这些 功能 里面 找到 他 需要 的 能力 然后 再 实现 他 自己 的 诉求 那么 AI Native 产品 的 能力 呢 它 其实 是 隐藏 在 最 简洁 的 页面
交互 里面 的 当 用户 通过 各种 模态 输入 自己 的 意图 的 时候 我们 的 产品 需要 通过 比如说 大 语言 模型 的 能力 来 解析 出 用户 的 意图 然后 做到 将 海量 的 能力 组合成 组合成 刚刚 我们 提到 的 AI 工作 流 或者 是 其他 一样 的 形式 再 把
它 运行 起来 最终 交给 客户 最后 一点 呢 其实 是 前面 两点 的 一个 结果 就是 当 我们 实现 了 一个 以 AI 为主 并且 能够 让 功能 找到 用户 的 一个 设计 平台 的话 那么 这个 设计 平台 的 用户 群体 就 必然 从 我们 前面 说 到 的 专业 设计师 转变 为 普通 的
工作者 OK 那 我们 以上 就是 我们 分享 的 全部内容 了 我们 可以 简单 做 一个 回顾 首先 我们 通过 提了 两个 问题 一个 就是 文圣 族 大 模型 是 什么 以及 文圣 族 大 模型 如何 去 重工 设计 领域 这 两个 问题 来 引出 了 我们 的 业务 背景 然后 我们
通过 一个 视频 然后 再 加 一张 图片 的 形式 来 给 大家 介绍 了 Designi 平台 在 业务 上 和 技术 上 是 什么 样子 的 接着 我们 通过 三个 难点 来 描述 了 一下 Design 平台 的 开发 历程 包括 如何 构建 一个 通用 的 模型 协议 如何 集成 AI 工作 流 以及 如何 研发 一个
跨平台 的 AI 渲染器 最后 就是 吹 了 个 牛 对 OK 我 的 演讲 就 完 了 谢谢 大家 如果 大家 对 我 的 名字 还 念念不忘 的话 可以 直接 过来 找 我 现场 有 同学 想 跟 宣 科林 顿 交流 一下 他们 这个 设计 平台 我 顺便 问个问题 你们 这个 设计 平台 里面 也 调用 了 很多
模型 包括 快手 的 可林大 模型 然后 还有 外部 的 模型 你们 有 什么 准入 的 一些 标准 吗 我们 目前 是 以 设计 因为 我们 目前 平台 主要 是 for 设计师 的 所以 说 我们 目前 内部 有 一个 设计师 群体 他们 是 专门 对模型 的 效果 和 一些 AI 的 能力 觉得 它
是否 可用 然后 他们 做 一个 评判 评判 完成 之后 呢 这个 模型 或者说 AI 工作人员 会 就 会 那个 上线 到 我们 的 平台 上 对 主要 是 通过 目前 是 通过 设计师 来 进行 一个 评判 明白 明白 行 然后 现场 如果 没有 问题 的话 我们 就 有 请 下 一个 讲者
下 一个 讲者 是 来自 《 字节 跳动 》 的 李成 同学 他会 给 我们 分享 的 主题 是 大 语言 模型 在 生活 服务 的 视频 创作 中 的 一些 实践 让 我们 有 请 李成 同学 谢谢 大家 非常 荣幸 今天 在 这里 给 大家 做 这样 一个 分享 我 分享 的 主题 就是 语言 大 模型 在 我们 抖音 生活 服务 视频 剧本 生成
中 的 一个 实践 然后 呢 我 是 这个 自业 挑动 的 一个 算法 工程师 然后 现在 是 在 这个 生活 服务 的 人工智能 团队 然后 也 是 我们 这个 生活 服务 智能 创作 项目 的 一个 核心成员 对 然后 那个 今天 的 分享 呢 我会 从 以下 这 几个 方面 进行 首先 是 我们 的 一个 业务 背景 的 一个 简单 介绍 然后 呢 之后 会 给 大家 简单 介绍 一下 我们 这个 智能
创作 的 一个 整体 的 一个 成片 流程 然后 之后 会 主要 去 介绍 一下 这个 大 语言 模型 在 我们 剧本 生成 当中 的 一个 应用 最后 是 一个 规划 和 展望 对 然后 首先 呢 是 我们 一个 业务 背景 大家 都 知道 抖音 它 是 一个 内容 平台 所以 在 抖 音上 经营 这种
生活 服务 的 业务 会 跟 其他 的 竞品 可能 会 有 一个 不 一样 的 产品 形态 它 除了 有 这种 交易 场 的 一个 属性 以外 就 可能 还会 有 这种 内容 场 的 一个 双重 的 一个 属性 对 对于 咱们 生活 服务类型 的 商家 来说 他们 如果 要 在 抖 音上 经营 生活 服务 业务
第一步 其实 就是 一个 视频 内容 的 一个 创作 对 就是 相当于 商家 他 首先 可能 要 创作 一些 视频 内容 发到 抖音 上 然后 用户 去 观看 到 这些 内容 以后 呢 要么 可能 会 直接 在 这个 平台 上面 进行 一个 下单 这样 是 产生 一个 直接 的 订单 或者 它 根本 可能 会 种草 然后 未来 有 一天 可能 会 线下 到 店 去 进行 一个 消费 那 这样 其实 是 产生
了 一个 间接 的 订单 那 不管 以上 是 哪种 方式 吧 其实 就是 相当于 对于 商家 来说 他 在 抖 音上 经营 的话 第一步 就 都 是 要 做 这样 一个 视频 内容 的 创作 对 然后 一般来说 呢 不好意思 一般来说 呢 咱们 那个 商家 在 那个 创作 的 时候 可能 会 请 达 人
去 帮 他们 进行 一个 内容 创作 就是 大家 可能 经常 能刷 到 这样 那个 探电 啊 带货 这样 一个 类型 的 一个 内容 但是 就 其实 对于 站稳 平台 这个 商家 数量 占 绝大多数 的 这种 中小 商家 来说 呢 其实 请达 人 的 成本 相对 于 他们 的 经营 成本 来说 其实 可能 还是 相对来说 会 比较 高
了 并且 其实 大家 可能 不 知道 的 是 达 人 也 是 会 挑 商家 的 有 一些 中小 商家 哪怕 他们 想 请 达 人 达 人 可能 也 不 一定 愿意 接 这个 商单 所以 然后 最后 可能 那 商家 可能 他 最后 就 会 自己 去 做 视频 但是 又 有 一个 问题 就是 商家 可能 他 本身 内容 创作 能力 有限 这个 其实 就是 相当于 说 这些 中小 商家 在
我们 抖音 上 经营 生活 服务 的 一个 经营 困境 吧 然后 那么 大家 都 知道 现在 这个 大 模型 时代 到 了 对 然后 相当于 说 我们 能 感受 到 大 语言 模型 像 在 这种 文本 理解 啊 指令 遵循 还有 这种 自然语言 生成 能力 上 的 一个 这个 质 的 飞跃 吧 所以 相当于 说 现在 让
机器 代替 人去 进行 这样 一个 呃 大规模 然后 多样化 的 一个 这种 营销 视频 剧本 的 创作 其实 已经 是 完全 可行 的 了 所以 其实 我们 整个 这个 智能 创作 的 这个 业务 就是说 希望 用大 模型 去 助力 这些 中小 商家 去 获取 去 简单 的 去 提供 这个 低成本
简单 高效 的 一个 这种 那个 营销 视频 的 创作 能力 就 相当于 让 他们 可能 不 需要 有 这种 专业 的 这个 素养 就 能够 快速 的 低成本 的 去 做 出 这种 不输给 达人 的 营销 视频 然后 提高 他们 在 抖音 平台 上 经营 的 这样 一个 意愿 对 然后 我们 这个 整个 业务
的话 是 落地 在 这个 抖音 来客 平台 上 它 是 一个 就是 面向 商家 的 一个 一站式 的 一个 经营 平台 然后 我们 整个 业务 场景 呢 就是 分成 了 这个 两 部分 就是 一种 是 手动 的 场景 一种 是 托管 的 场景 那个 在 手动 场景 里面 就是 商家 可以 直接 上传 一些 视频 素材 然后 选择 他 要 介绍 的 一些 店铺 和 商品 然后 我们 的 这个 系统 呢 会
去 给 他们 去 生成 可能 会 生成 多个 视频 成 然后 商家 他 可以 在 这 里面 选择 他 喜欢 的 直接 去 发布 到 抖 音上 或者 他 也 可以 做 一些 简单 的 微调 以后 去 发布 然后 在 托管 场景 里面 呢 商家 还是 要 上传 素材 只不过 说 这个 地方 要 上 传到 一个 叫做 素材库 的 这样 一个 地方 对 然后 上传 之后 就 不用 管 了 然后 我们
系统 会 有 一个天 级 的 这样 一个 任务 就 每天 呢 去 从 素材库 里面 去 捞 素材 然后 捞 到 素材 以后 呢 去 给 它 自动 的 自动 进行 一个 生成 然后 之后 就是 一个 自动 的 投稿 整个 过程 对于 商家 来说 是 无 感知 的 相当于 说 它 不 需要 做 这种 wide 的 操作 就 每天 能够 有 这个 新 的 稿件 去 发出 来 然后 去 获得 一个
稳定 的 流量 这个 也 叫 托管 场景 对 然后 这里 也 是 给 大家 看 几个 我们 业务 中 真实 生成 的 一个 成片 的 demo 哈 我 这些 好吃 的 都 在 左下角 火速 走 起
我 把 数据 推给 我 的 饭 搭子 终于 吃 到 了 这家 街角 的 老街 尼锅 串串香 了 只 爆 了 的 一个 双人 套餐 原价 要 168 的 锅子 现在 只要 59.9 块钱 就 可以 搞定 里面 有 四个 锅底 随便 挑 还 可以 拿 四个 蛋料 任选 两样 还有 40 根 千千 还有 冷菜 和 小面 而且 我们 两个 人 吃 完 都 没有 胖 两斤 所以 朋友 们 你们 准备 好了吗
真的 好 好吃 的 哦 对 然后 前 两个 可能 是 餐饮行业 的 例子 下面 可能 会 有 一个 其他 行业 最近 一直 想 让 孩子 多 参加 一些 友谊 身心 的 活动 朋友 给 我 介绍 了 Baby Week 北省 少儿 运动 馆 听说 他们 家 的 教练 很 专业 然后 这里 也 是 想
解释一下 就是 因为 我们 那个 抖音 的 生态 里面 呢 就是 如果 你 是 一个 探电带 货类 这样 一个 视频 的话 我们 首要 的 一个 要求 就是 真实性 就是说 你 拍摄 的 这个 视频 内容 必须 得 是 真实
的 所以 也就是说 这里 为什么 我们 这个 业务 的 形态 是 说 一定 要 借助 商家 上传 的 这个 拍摄 的 素材 而 不是 说用 咱们 就是 最近 比较 火 的 像 这种 什么 文生 图 啊 文生 视频 这种 AIGC 的 能力 对 其实 是 有 一个 平台 的 底线 在 里面 的 然后 接下来 的话 就是 想 给 大家 简单 介绍 一下 我们 整个 视频 智能 创作 的 一个 成片 流程 吧 一个
是 让 大家 能够 对 我们 这个 整个 算法 框架 有个 快速 的 了解 另 一个 也 是 就 便于 大家 理解 就是 接下来 我 主要 介绍 的 这个 剧本 生成 在 我们 这个 成片 环节 中 的 一个 位置 和 作用 然后 从 左边 看 我们 左边 的话 就是 我们 整个 系统 的 一个 输入 然后 包括 两
部分 一个 是 用户 上传 的 一些 视频 素材 然后 另 一部分 是 可能 一些 POI 商品 评价 这些 系统 里面 的 这些 信息 然后 用户 上传 的 素材 会 经过 一个 素材 预处理 的 环节 然后 接着 会 有 一个 镜头 内容 理解 这样的话 我们 就 能够 理解 这些 画面 里面 的 内容 然后 这个 理解 的 结果 我们
会 通过 一个 视觉 标签 的 这样 一个 形式 去 表达 然后 接着就是 这个 视觉 标签 结合 上 我们 刚刚 说 的 这个 PUI 这些 信息 呢 会 进到 一个 剧本 生成 这样 一个 模块 里面 然后 它会 生成 一个 剧本 文案 有 了 这个 剧本 文案 以后 呢 我们 会 这个 系统 呢 会 以 这个 剧本 文案 为底 然后 去 做 一个 匹配 就 相当于 说 把 这个 镜头 画面 去往 这个 剧本
文案 上去 做 一个 匹配 这样 一个 匹配 算法 经过 这样 一个 匹配 之后 呢 我们 就 可以 进行 一个 剪辑 然后 接着就是 一个 渲染 和 投稿 一个 环节 了 对 然后 然后 镜头 和 剧本 匹配 的 这个 算法 就 相当于 一个 达人 的 手 他 会 做 一个 剪辑 对 然后 因为 时间 有限 的 没有 办法 跟 大家 这个 一一
的 进行 一个 分享 所以 这次 分享 我会 主要 focus 在 这个 剧本 生成 的 这个 环节 然后 大家 也 从 这个 流程 里面 能 看到 就是 因为 我 剧本 生成 之后 会 有 一个 这个 镜头 剧本 匹配 的 这样 一个 算法 所以 相当于 说 在 我 这个 剧本 生成 这个 环节 我 的 这个 任务 相对来说 它 是 比较 自由 的 我 可以 这个 更 专注 在 像 这个 行文 风格 啊 那个
文案 这个 逻辑 这样 一个 这个 文案 本身 的 一个 效果 上 对 然后 接下来 的话 我会 主要 介绍 一下 这个 大 元 模型 在 我们 整个 这个 智能 创作 里面 这个 剧本 生成 任务 里面 的 一个 应用 和 探索 吧 然后 我们 这个 探索 呢 主要 包含 这 三个 阶段 的 方案 吧 一个 是从 零到 第一
的 一个 直出 的 方案 一个 是 这个 使用 润色 进行 一个 两 阶段 的 一个 这样 一个 方案 最后 是 使用 结构化 控制 然后 一步到位 的 这样 一个 方案 对 然后 我们 先 简单 来看 这样 一个 直出 的 方案 那个 我们 这个 剧本 生成 第一个 版本 呢 其实 我们 这个 实现 的 方式 是 比较 这个
intuitive 就是 大家 可以 都 想到 就是 我们 最 简单 的 就是 我们 借助 一些 ZeroShots 的 模型 然后 通过 一些 那个 Problem Engineering 的 方式 然后 去 完成 了 这个 剧本 生成 的 任务 这个 方案 也 是 支持 了 我们 早期 MVP 版本 的 一个 快速 上线 和 验证 但是 在 这个 方案 的 实际 应用 过程 中 其实 我们 发现 它 有 一个 比较 大 的 问题 就是说 无论 我们 怎么 去
构造 这个 prompt 然后 它 总是 会 有 一个 很强 的 这种 AI word 就是 我 这里 也 解释一下 什么 叫 AI word 就可以看 这个 例子 就是 你 可以 感受 到 这个 文案 里面 会 有 这种 很强 的 这种 书面 化 的 风格 它 可能 跟 我们 这个 达 人 用户 在 这个 抖音 上 创作 内容 的 时候 它 的 这个 风格 是 完全 不 一致 的 就是 会 用 一些 可能 我们
平常人 不会 用 的 一些 词语 这 里面 比方说 像 这个 美不胜收 啊 流连忘返 啊 然后 还有 什么 味蕾 盛宴 这种 词对 它 跟 我们 这个 抖音 上 的 风格 就 不 太 一样 然后 后面 我会 介绍 一下 我们 这个 润色 方案 里面 是 怎么 解决 这个 问题 的 对 然后 解决 这个 问题 的 时候 我们 就是 还是
说 希望 想要 这个 模型 它 的 目标 就是说 把 一个
有 AI Word 这样 一个 剧本 文案 去 给 它 润色 成 一个 可能 适合 于 我们 抖音 上 这种 风格 的 一个 剧本 文案 对 然后 下面 我 是 来 介绍 一下 怎么 实现 第二步 的 这种 这个 润色 的 这个 任务 然后 第二步 的话 其实 我们 有 一个 直观 的 想法 就是 我们 是不是 可以 通过 人工
的 方式 去 标注 来 获取 我 这个 训练 数据 呢 就是 我 可能 有 一些 AI Word 这样 一个 剧本 然后 我 让 标注 员 给 我 改写 成有 抖音 风格 的 这样 一个 剧本 文案 但是 这 里面 其实 有 一个 问题 就是 抖音 风格 这个 东西 它 是 一个 比较 笼统 的 概念 我们 很难 去 定义 什么 叫做 抖音 风格 然后 还有 一个点 就是说 这个 东西 它 其实
比较 考验 标注 人员 的 水平 就是 它 可能 跟 我们 这个 语文 功底 还 预定 的 关系 所以 其实 不同 的 标注 员 可能 它 标注 出来 的 结果 和 质量 可能 差别 会 很大 所以 后来 我们 考虑 再三 还是 使用 了 另外 一套 方案 可以 看 这个 图 具体做法 是 这样 我们 现在 手上 拿到 的
是 我们 线上 的 视频 抽取 出来 的 这种 ASR 的 文案 然后 呢 这个 文案 是 我们 最后 想要 的 一个 domain 然后 我们 其实 是 那个 我们 这个 润色 模型 的 那个 输入 呢 是 我们 一个 AI Word 的 一个 风格 的 这样 一个 domain 然后 那 我们 其实 可以 在 那个 构造 数据 的 这个 阶段 的 时候 呢 我们 一个 这个 ZeroShot 的 模型 让 它 去
输入 这个 抖音 风格 的 这个 文案 然后 让 它 去 输出 这个 AI Word 的 一个 文案 就 相对 于 让 大 模型 去 帮 我们 做 这个 做 这个 AI Word 的 一个 文案 的 生成 因为 这个 东西 就是 大 模型 擅长 的 嘛 它 本身 天然 就 说 出来 的 东西 就 有 这个 AI Word 然后 呢 我们 在 训练 的 时候 呢 我们 把 刚才 说 的 这个 构造
的 数据 给 它 就是 我们 这个 input 和 output 倒 过来 那 我 就 变成 了 相当于 说 我 input 就是 模型 输出 的 这种 有 AI word 的 这个 文案 然后 output 呢 就是 线上 的 这种 抖音味 的 这个 ASR 这个 文案 那 构造 出 这样 一个 训练队 以后 我们 就 可以 训练 这样 一个 润色 模型 了 那 这个 模型 它 就 能 把 一个 AI word 的 一个 domain
去 润色 成 一个 线上 ASR 风格 的 这样 一个 domain 然后 包括 线上 用 的 时候 也 是 Input 就是 一个 AI 文案 然后 我们 Output 就是 一个 抖音 风格 的 这样 一个 文案 大概 是 这样 一个 做法 然后 底下 也 给 了 一个 例子 就是 可以 看 就是 左边 就是 我们 线上 的 一个 真实 数据 就是 达人 的 那个 视频 里 的 文案 就是 你 可以 看 它 有
一些 比较 那个 口语化 的 说法 比方说 什么 还有 人 不 知道 这个 什么 什么 地方 吗 然后 多少 元 就 能 吃 这样 一桌 这样 一个 说法 然后 呢 我们 可以 先 调 这个 prompt 然后 让 一个 模型 去 给 它 改成 这种 AI word 的 文案 比方说 改成 这种 你 看 它 有 一些 AI word 的 用词 比方说 什么 旧能 享受 怎么样 或者 什么 快 来 感受 什么 什么 的 这个
味蕾 盛宴 吧 这种 就 很 明显 有 AI word 的 这个 风格 对 然后 实际 训练 的 时候 呢 我们 会 把 右边 的 这个 部分 作为 input 然后 左边 的 这个 部分 作为 那个 output 这样 就学 出来 一个 润色 的 一个 模型 对 这样 的 构造 确实 比较简单 但是 实际 我们 会 发现 很多 问题 主要 的 问题 就是 生成 的 任务 里面 会 很 容易 碰到 幻觉 的 这种
问题 比方 这里 也 给 了 一个 例子 可以 看到 这个 模型 它会 自作主张 地去 说 一些 不 存在 的 事实 比方说 这里 216 元 就是 模型 自己 算 出来 的 虽然 它 这个 算数 好像 算 对 了 但是 可能 大多数 情况 下 算数 是 算 不 对 的 然后 再有 就是 它会 捏造 一些 不 存在 的 事实 比方说 这里 它 说 了 什么 豆芽 豆腐皮 这些 配菜 那 原来 文案 里面 可能
是 没有 的 那 如果 我们 真的 把 这个 东西 放到 线 上去 那 用户 看到 就 会 投诉 了 说 你 视频 里边 这样 说 那 实际 你 套餐 没有 这个 没有 这些 东西 对 吧 你 这 不是 虚假 宣传 吗 那 肯定 是 不行 的 对 然后 呃 在 这个 地方 我们 为 了解 幻觉 问题 我们 也 是 做 了 很多 尝试 这里 我们 也 是 总结 了 一个 方法论 至少
说 在 我们 生成 任务 上 是 比较 有效 的 然后 大概 会 分为 这 几步 第一步 就是 首先 我们 去 看 我们 的 这个 case 然后 去 看 我们 模型 产生 的 幻觉 问题 然后 接着 我们 会 去 然后 我们 去 观察 这个
幻觉 问题 是不是 被 解决 掉 了 然后 来 去 这样 不停 地去 做 这样 一个 迭代 然后 这里 也 是 列出 了 我们 在 训练 过程 中 碰到 的 一些 问题 然后 还有 我们 对应 的 一些 解决方案 啊 首先 就是 比方说 ASR 它 一般 识别 出来 的 这个 文字 可能 都 是 汉字 那 我们 模型 润色 出来 的 结果 那 肯定 也 是 都 是 汉字 嘛 但
实际上 我线 上书 的 时候 其实 很多 时候 都 是 阿拉伯数字 那 这个 时候 就是 会 有 问题 的 就是 相当于 是 我 训练 的 时候 infer 的 时候 这个 domain 不 一样 就是 相当于 存在 阿拉伯数字 和 汉字 的 这种 domain 的 一个 gap 然后 这种 情况 下 模型 可能 就 会 导致 它 说 数字 说不清楚 或者 会 出现 幻觉 那 这里 的 解决方案 就是说 我会 对 这个 东西 搞 一个 prompt engineering
就是 我会 给 训练 数据 做 一次 额外 的 转换 我 把 这个 中文数字 去 转换成 阿拉伯数字 就 输出 输出 都 变成 阿拉伯数字 那 然后 这样的话 我 就 保证 说 我 不管 是 训练 的 时候 还是 info 的 时候 我 就是 一个 完全 对齐 的 一个 阿拉伯数字 的 这样 一个 domain 第二种 情况 就是 它 可能 会 有 一些 关键 信息 没 关键 信息 没 对齐 造成 的 一个 幻觉 问题 我 举个 例子
就 比方说 线上 的 ASR 文案 可能 它 说 了 一二三 这 三个 这样 一个 信息点 那 实际 我 这个 用 模型 去 生产 训练 的 数据 的 时候 呢 可能 会乐掉 一个 比方说 它 就 只 说 了 一二 两个 信息点 那 如果 这个 时候 我 拿 这种 数据 去训 模型 的话 就 会 让 Rose 模型 以为 3 这个 信息点 就 因为 我 输入 里面 没有 输出 有 嘛 他 会 以为 3
这个 信息点 就是 他 需要 去 编出来 的 那 这个 东西 天然 就 会 造成 这个 幻觉 问题 嘛 对 然后 这个 地方 的 解法 呢 就是 我们 在 这个 生成 训练 数据 的 时候 这个 模型 我们 做 了 一个 多轮 对话 让 这个 模型 去 先 去 做 一个 任务 就是 他 把 这个 线上 这个 ASR 文案 里面 这个 关键 信息 给 抽出来 抽出来 之后 呢 再 去 基于 这些 抽出来 的
关键 信息 去 做 一个 这个 AI 文案 这样 就 能够 尽可能 地 保证 它 不会 丢 这些 关键 的 信息点 对 然后 再有 就是 这个 ASR 这个 本身 它 可能 会 存在 一些 识别 错误 就 比方说 错别字 这种 情况 那 这种 数据 也 会 造成 我们 生成 的 时候 会带 一些 带 一些 比较 脏 数据 对 然后
这个 解法 就是 我们 发现 线上 达 人 他们 这个 视频 绝大多数 可能 会带 字幕 那 这个 好办 就是 我们 直接 用 OCR 的 这个 文字 去 做 一遍 refine 那 我们 就 能 拿到 相对来说 比较 干净 的 一个 ASR 的 一个 样本 然后 再 去 训练 模型 对 然后 最后 一个 的话 就是 我会 做 一个 modal driven
的 一个 数据 清洗 就是 我 这个 模型 翻 tune 一遍 以后 我会 直接 用 这个 训练 好 的 模型 去 洗 一遍 数据 然后 去 把 这个 loss 比较 大 的 这个 样本 直接 去 丢掉 就 因为 就 这种 大 概率 我们 看到 这种 loss 大 的 样本 可能 就 本身 就 会 存在 一些 幻觉 或者 模型 不太好 学 不太好 说 这种 情况 这种 东西 在 训练 数据 里面 大 概率 也
会 造成 幻觉 所以 我们 直接 丢掉 不要 就 好 对 然后 这 几步 基本上 能够 把 我们 业务 上 约 到 大部分 的 幻觉 问题 给 解决 掉 就 除了 这些 具体 的 这个 方案 以外 还 想 给 大家 介绍 一个 一个 优化 点 吧 就是 我们 这个 地方 我们 管它 叫做 预 对齐 然后 这个 Motivation 大概 是 这样 的 就是 可以 看 右边 这个 图 就是 右边 上面 这个 图 的
右边 就是 这个 地方 是 我们 训练 数据 的 一个 构造 流程 就是 我 有 一个 线上 的 ASR 文案 然后 我调 了 一个 Prompt2 然后 就 用 它 去 生成 一个 AI Word 的 文案 对 然后 左边 这一图 呢 是 实际 我们 线上 使用 的 时候 我们 所谓 的 一个 正向 的 过程 就是 我 可能 会 有 一些 系统 里面 的 一些 结构化 的 信息 然后 我调 了 一个 prompt1 然后 让
这个 模型 去 生成 一个 生成 一个 Aever 的 一个 基底 剧本 那 这个 地方 这个 绿色 的 Aever 文案 和 这个 蓝色 的 Aever 文案 它 其实 是 存在 这个 domain gap 为什么 呢 就是 有 两个 方面 一个 是 可以 看到 就是 我 这个 地方 这个 绿色 和 蓝色 这 两个 地方 我 生成 的 一个 prompt 本身
就是 不同 的 对 然后 再有 就是 他们 依赖 的 一个 结构化 信息 是 不 一样 的 左边 这个 绿色 的 部分 是 我们 系统 里面 可能 存在 的 一些 能 拿到 的 一些 那个 结构化 信息 那 右边 蓝色 的 部分 那 其实 可能 就 达 人 他 脑内 的 一些 结构化 信息 那 可能 这 两个 结构化 信息 他 本身 的 卖点 的 这个 集合 就是 会 有 这个 gap 那 这个 相当于
说 我 prompt 和 我 这个 输入 都 不 一样 就 很 容易 造成 说 我 这 两个 AI Word 的 文案 它 其实 这个 domain 的 分布 上 是 有 gap 然后 这个 gap 造成 的 比较 大 的 问题 就是 让 模型 不 通顺 的 这个 概率 会 增加 我举 一个 比较 好 理解 的 例子 吧 就 比方说 我们 线上 的 真实 场景 里面 那 我 给 这个 模型 的 输入 里面
可能 绝大多数 情况 下 我会 有 一个 原价 的 信息 因为 这个 信息 是 我们 系统 里面 比较 好 拿 的 嘛 那 这个 时候 呢 我 那个 A1 的 一个 基地 剧本 就 会 说 原价 那 这个 时候 呢 我 润色 我 这个 润色 模型 也 需要 去 描述 一个 原价 那 但是 我 这个 润色 模型 可能 在 训练 的 时候 没有 学到 原价 该 怎么 去 描述 那 为什么 就是 因为
达 人 可能 很多 时候 他 不会 去 描述 原价 那么 训练 信息 里面 对于 原价 的 描述 可能 会 缺失 的 就 相当于 说 我 这个 润色 模型 训练 的 时候 没 学到 原价 怎么 说 那 Infer 的 时候 又 要 被迫 去 描述 原价 那 这个 时候 很 容易 在 原价 的 描述 上 产生 一些 幻觉 或者 一些 莫名其妙 的 说法 对 然后 这个 地方 的 一个 解决方案 就是 我们 一个
预 对齐 的 思路 这里 我们 也 是 引用 了 一个 SIM 里面 的 一个 图 大概 的 思路 也 是 非常简单 就是 我 先用 刚刚 的 这个 方案 去 训买 模型 然后 训完 模型 之后 呢 我 用 这个 训完 的 模型 以后 我 再 去 重新 生成 一遍 这个 训练 数据 然后 做 一遍 清洗 然后 这 一遍 那个 训练 数据 生成 之后 我 才 拿来 就是 再 相当于 我 再 做 一遍
训练 然后 第三步 的 这个 训练 才 是 我 真正 的 给 线 上 用 的 这个 一个 模型 就 相当于 说 我 先用 这个 线上 达 人 的 这个 domain 这个 数据 去 训一版 这个 就是 这 里面 这个 Lora2 然后 这个 Input 就是 达人 的 这个 ASR 的 文案 然后 这版 Lora2 以后 我会 用 它 再 重新 去 做 一遍 训练 数据 的 生成 那 这 一遍 训练 数据 的
生成 呢 它 的 输入 就是 我们 系统 里面 真实 线 上会用 的 一个 结构化 信息 了 那 它 生成 的 这个 训练 数据 就是 可以 看到 是 一个 绿色 domain 的 这个 数据 然后 这样的话 我 相当于 说 我 就 把 这个 训练 的 时候 的 这个 数据 的 domain 和 我线 上 真实 infer 的 时候 数据 的 domain 的 这个 gap 给 缩小 了 对 然后 通过 这种 方式 就 能够
解决 上面 提到 这种 预不对 写 的 问题 然后 实际 的 效果 我们 也 会 发现 它 的 幻觉 问题 也 会 有 一个 比较 大 的 降低 现在 第二次 生成 的 时候 这个 数据 也 不是 直接 用 的 我们 这个 地方 也 是 生成 完 之后 还要 做 一遍 清洗 就 这里 也 是 列出 了 一些 简单 的 一个 清洗 原则 吧 就是 首先 还是 说 我们 会 把 那个 Loss 这个
低 的 这部分 样板 给 留下来 还是 说 高 Loss 样板 基本上 就是 模型 可能 本身 没有 说 通顺 的 那 部分 对 然后 第二个 就是 我们 会 有 一个 事实 检测 模型 就 会 检测 我 输入 和 输出 里面 这个 事实 是不是 一致 的 就 用来 保证 我 这个 训练 数据 本身 是 干净 的 不会 在 数据 上 本身 产生 幻觉 对 然后 这 两个 这个 洗完 之后 我们 才 会 作为
这个 绿色 的 这个 数据 集再 去 做 一个 训练 对 然后 最后 我们 也 能 观察 到 就是 使用 这个 预 对齐 之后 和 预 对齐 之前 这个 相比 这个 模型 训练 的 Loss 这个 绝对值 上会 有 一个 比较 明显 的 下降 那 也就是说 对于 模型 而言 它 对齐 之后 的 一个 任务 相对来说 会变 简单 了 也 会 变得 更 合理 了 这个 地方 BiteCase 率 也 会 有 一个 比较 大
的 降低 大概 能 降低 30% 左右 吧 对 然后 这里 就 去 看 一下 我们 最后 的 一个 效果 吧 左边 就是 一个 我们 调 prom 出来 的 一个 这种 基地 剧本 你 可以 看到 它 有 很 强 的 这种 AI 网 比方说 什么 香味 四溢 啊 美不胜收 啊 然后 美食 盛宴 这种 成语 这种 表述 吧 然后 右边 就是 这个 我们 润色 出来 的 这个 剧本 文 啊 就 可以 看到
它 还是 整体 还是 表切 地气 的 对 然后 这个 地方 也 是 有 一 对应 的 一个 上线 收益 我们 稿件 的 一个 平均 播放 量 能 有 一个 10% 的 一个 涨点 然后 平均 的 一个 GMV 也 有 一个 9.8% 的 一个 涨点 然后 就 前面 这一版 就是 基于 润色 的 这个 方案 我们 业务 上 经过 一段时间 的 一个 使用 以后 就 也 发现 了 一些 新 的
问题 吧 就 比方说 现在 这版 方案 它 其实 不 支持 这种 开机 的 卖点 就 因为 我 刚刚 说 的 坐落于 对齐 嘛 那 也就是说 当 我 这个 生产 的 时候 我们 这个 模型 的 输入 和 这个 实际 推理 的 时候 如果 我 这个 输入 存在 gap 的话 那 我 这个 产出 的 这个 润色 文案 的 质量 可能 就 会 下降 其实 这个 就是 相对 于 说 我 没有 见 过 的
一些 卖点 的话 模型 它 可能 就 容易 去 误解 它 的 意思 你 可以 看到 这个 里面 列出来 的 一些 比方说 像 这里 一个 什么 明天 见 理发店 那 模型 可能 就 会 润色 成 什么 明年 再见 了 各位 理发店 就 类似 于 这种 效果 其实 就是 那个 预队 齐 带来 的 一些 副作用 吧 然后 其次 就是说 我们 在 第一版 做 这个 润色 模型 的 时候 当时 我们 这个 基底 剧本
的 这个 prom 还 比较 固定 那 随着 我们 业务 后来 的 迭代 呢 我们 其实 也 是 做 了 很多 风格 的 这个 基底 剧本 那 这个 时候 我们 这个 prom 可能 是 差别 会 很大 那 这种 时候 我们 就 没有 办法 直接 用 我们 第一版 逊菜 这个 润色 模型 直接 在 我们 后来 迭代 这些 不同 风格 的 基底 剧本 上 直接 做 润色 了 那 这个 地方 我们 相当于 是 我们
模型 迭代 这个 这个 流程 就 可能 变 为什么 呢 就是 我们 可能 一 开始 会要 做 一些 玩案 样式 然后 我会 去 调 ZeroShot 模型 调 Prompt 然后 做 几版 这个 基底 剧本 然后 上线 跑掉 时间 收集 一些 数据 然后 对美 一种 样式 重新 选 一个 润色 模型 然后 再 去 做 AB 实验 打平 验证 上线 这样 那 其实 整个 这个 操作 下来 的话 时间 也 会 非常 长
人力 消耗 也 会 非常 大对 这块 也 是 成本 会 非常 高 还有 一点 比较 重要 就是 这版 那个 方案 的 可控性 比较 小 就 很 难 做 一些 细腻 度 的 控制 比方说 我 的 机体 剧本 可能 有 很 多种 风格 那 我 想要 增加 一些 统一 的 横向 控制 就 会 比较 麻烦 就 比方说 我 没有 办法 在 节假日 的 时候 我 统一 地去 给 它 增加 这种 像 我
春节 的 时候 我 希望 它加 一些 春节 的 这种 画术 那 或者 我 希望 它 统一 有 一些 开头 的 一些 画术 或者说 有 一些 增加 增加 一些 退款 政策 这种 卖点 那 可能 都 很难说 统一 的 横向 控制 如果 我 真的 想 做 那 可能 就是 不同 的 prom 我 需要 去 单独 去 调去 优化 那 这种 这样 做法 的话 就 人力 成本 会 非常 高 就 很 难 做到 规模化
对 然后 再有 就是 我们 现在 这个 剧本 结构 本身 相对 比较 单一 吧 重复 度 也 比较 高 然后 我 也 很 难 通过 调 prom 的 方式 去 显示 的 去 控制 一个 文案 结构 所以 这里 我们 也 是 想要 去 做 一些 可控性 的 一个 优化 然后 基于 上述 这些 问题 我们 重新 思考 了 这个 剧本 的 生成 方式 这里 也 是 设计 了 一套 all - in - one
的 一个 剧本 大 模型 想要 通过 一个 模型 去 解决 上述 这些 所有 问题 核心 的话 就是 我们 想要 通过 对线 上 ASR 文案 的 一个 解构 解 构成 这种 多个 维度 的 这样 一个 元素 然后 通过 对 每 一个 维度 的 控制 去 实现 最后 对 整个 剧本 文案 的 一个 控制 具体来说 的话 我会 对线 上
的 文案 去 做 这样 一个 拆解 拆解 成 三个 维度 这里 有 写 就是 专有 信息点 人设 和 模板 专有 信息点 的话 右边 有个 例子 就 比方说 这个 地方 写 的 汤底 商品 名 重量 这些 东西 这些 信息 都 是从 线上 真实 的 文案 里面 去 提取 出来 的 然后 第二个 就是 抽取 出来 一些
全局 的 内容 比方说 人设 这种 描述 第三个 就是 模板 那 其实 是 会 做 一个 分段 的 结构化 就 相当于 说 其实 有点 模仿 达人 的 叙述 方式 在 里面 我们 相当于 说 我会 把 现上 达 人 的 一 整个 稿件 去 给 它 拆散 成 一个 一个 的 分段 然后 每 一个 分段 里面 我会 再进一步 的 去 拆 分成 三个 元素 分别 叫做 用词 模板 和 表达 然后 这里 有 一个
例子 可以 看 比方说 这个 地方 这个 分段 叫做 118 吃 这家 店 然后 这波 浮力 你 一定 要冲 这个 就是 一个 原始 的 文案 然后 我 这个 地方 的 用词 可能 就是说 这波 浮力 你 一定 要冲 这个 是 用词 模板 的话 我 相当于 说 我会 把 原来 的 一些 信息点 去 抽出来 然后 把 它 转化成 站位 服 然后 变成 这样 一个 模板 然后 这 两个 的话 就是 比较 low level 的
一个 提取 那 除了 这个 以外 我们 还 想要 保留 一些 high level 的 一些 结构化 相当于 我 需要 去 理解 这句 话 本身 是 什么 意思 比如说 这句 话 它 会 其实 是 在 介绍 套餐 价格 然后 还 可能 有 一些 粗单 画术 那 这个 地方 我会 把 这些 high level 的 这个 信息 也 抽取 出来 这个 东西 叫做 这个 表达 对 然后 通过 这种 方式 去 结构化 一个 线上 的
剧本 那 这些 信息 有 了 之后 我们 怎么 去训 模型 呢 有 两个 点 啊 就是 一个 是 训练 的 时候 我们 就 可以 把 这个 就 把 刚刚 这个 抽取 的 东西 反过来 就是 把 这个 抽取 的 结果 作为 模型 的 输入 然后 把 这个 ASR 文案 去 作为 模型 的 输出 对 然后 这样 去训 一个 模型 另外 我们 这里 也 加 了 一个 通用 的 一个 System 一个 约束
比方说 什么 不能 骂人 啊 类似 于 这种 通用 的 一个 约束 对 类似 于 这种 然后 这样的话 我们 就 能 得到 一个 什么 根据 信息点 根据 人设 根据 一个 分段 结构化 这些 信息 作为 输入 然后 去 输出 一个 输出 一个 剧本 文案 的 这样 一个 模型 了 然后 这里 也 是 有 一些 这个 训练 方式 上 的 一个 优化 可以 给 大家 介绍 一下 主要 是 一些 数据 增强 的 手段 吧
第一个 就是 一个 随机 drop 就是 在 前面 刚刚 说 到 这种 提取 分段 的 时候 就是 那 其实 我 每 一个 分段 里面 这个 用词 结构 和 表达 用词 模板 和 表达 我 其实 都 会 抽出来 嘛 包括 我 每 一个 分段 也 都 是 有 的 那 实际 我训 的 时候 我会 mask 掉 一些 包括 我 可能 会 整个 分段 的 这个 要求 我 都 会 给 mask 掉 那 这种
技术 相当于 说 我 的 目的 就是 让 模型 能够 除了 原封不动 地 满足 我 所有 要求 之外 我 没有 要求 的 地方 才能 有 一些 自由度 去 做 一个 自由 创作 对 然后 相当于 是 我 希望 模型 能够 说 在 满足 我 要求 前提 下能 有 一些 创作 的 多样性 然后 第二个 点 就是 一个 卖点 的 改写 就是 我会 在 原来 那个 提取 它 的 这个 专有 信息点 里面 去 做 一些
改写 这个 地方 的 原因 是 就可以看 这个 例子 比方说 这里 线上 的 这个 ASR 文本 里面 会 有 一句 话 叫做 还有 免费 的 矿泉水 我 抽取 出来 的 卖点 就是 这 几个 还有 免费 的 矿泉水 那 如果 我 不加 改动 的 去 训 模型 的话 相当于 我 输入 就是 这个 还有 免费 的 矿泉水 然后 输出 的话 就 原封不动 的 去 输出 了 那 这种 就是 我们 不想 看到 的 对 然后
就 我 为了 防止 训 出来 一个 只会 原封不动 照抄 的 一个 模型 那 我 就 得 去 做 一个 改写 相当于 把 这个 卖点 改掉 让 模型 不会 拿到 数据 不是 这种 原封不动 的 这样 一个 数据 的 状态 对 然后 这样 就 能 提高 它 的 一个 生成 的 一个 丰富性 这里 也 是 给 了 几个 例子 吧 去 演示 一下 这个 模型 它 能够 支持 一些 比较 多 的 场景 然后
每个 场景 也 会 有 一些 生成 的 例子 我 给 大家 简单 讲 几个 第一个 就是 当 我们 给 模型 比较 少 的 控制 就是 我们 只 给 一些 信心 点 和 人设 那么 它 对应 的 就是 没有 控制 的 这样 一个 开机 卖点 的 一个 自由 生成 这样 生成 出来 的 分布 应该 就是 比较 接近 抖音 大盘 的 一个 分布 像 下面 这种 例子 里面 比方说 这个 我 可以 给 它
任意 的 一些 卖点 呢 它 可能 就 会 然后 说 底下 还有 一些 例子 比方说 这里 我 说 以 询问 的 方式 引入 商品
那 他 可能 会 说 兄弟 们 你们 知道 吗 类似 这种 或者说 我 说 用 感性 的 语言表达 一些 购买 欲望 那 他 会 说 想 不想 买 一份 之类 这种 就 也 能 满足 一些 这种 人事 他 也 要求 除此之外 呢 我们 还 可以 去 引入 一些 节假日 的 信息 就 刚才 提到 那 我 节假日 的 一些 促销 节点 我 直接 在 信息点 的 里面 去 输入 就 可以 那 我
天然 就 可以 支持 这样 一个 输入 那 相当于 说 我 有 节假日 促销 的 时候 我 也 可以 比较简单 的 去 支持 节假日 的 文案 的 一些 生成 除了 上面 这些 例子 以外 我 还 可以 做 一些 更 细腻 度 的 一些 控制 那 比如说 我 可以 对 着 每个 分段 去 传入 它 一些 表达 的 要求 那 比方 我 要求 第一个 分段 去 介绍 店铺 位置 和 特色 然后 第二个 分段
去 介绍 菜品 然后 最后 一个 分段 去 介绍 一些 团购 政策 这些 引导 话术 那 它 就 能够 按 我 要求 去 生成 一个 剧本 然后 能够 这个 剧本 能够 满足 我 整体 的 这个 故事性 的 一个 结构 去 生成 下面 这些 例子 里面 就是 相当于 我 给 他 三个 分段 都 做 一些 限制 那 他 能够 按照 要求 去 生成 比方说 这里 我会 说 什么 以 询问 的 方式 引入 那
他 就 会 用 问句 开头 类似 于 这种 然后 包括 结尾 也 能 按 我 要求 说 欢迎 大家 来 品尝 类似 于 这种 文案 对 当然 我 也 可以 给 他 一些 前头 和 结尾 的 一个 分段 但是 我 不 给 表达 我 就 通过 模板 给 它 因为 咱们 这里 有 这个 high level 和 low level 的 控制 嘛 那 我 这个 地方 不是 说 两个 都 是 必选 的
我 可以 只选 一样 那 比如说 我 这里 只 给 low level 的 像 这里 我 说 你 不会 还 没有 吃 过 PUI 名称 吧 然后 这个 其实 就是 一个 low level 的 控制 那 相当于 说 我 给 了 它 这个 之后 那 我 这个 生成 的 这个 剧本 它 就 会 满足 我 这个 要求 就 按照 这个 模板 去 写 那 它 会 说 你 不会 还 没有 吃 过 某某某
店 吧 这 样子 的 一个 表达 当然 我们 结尾 的话 还是 可以 通过 一个 high level 的 方式 去 实现 的 比方说 我 可以 说 什么 以 催促 诱导 的 方式 去 结尾 那 它 可能 就 会 有 一些 high level 的 一个 控制 就 像 又 是 这个 会 比较 自由 我 既 可以 有 一些 严格 照抄 的 属性 也 可以 有 一些 high level 的 让 它 能够 自我 发挥
但是 能够 保持 一些 约束 的 这样 一个 控制 最后 一个 可能 会 稍微 复杂 一点 就是 这个 架构 其实 可以 做防显 怎么 做防显 呢 就是 我们 可以 对 一个 防写 的 对象 我 直接 去 做 我 刚才 的 这样 一个 结构化 的 提取 提取 完 之后 呢 我会 把 它 这个 防写 对象 里面 一个 专有 的 信息点 比方说 什么 商品 名 啊 债格 这些 东西 全部 丢掉 然后 呢 我 把 我
真正 要 生成 文案 的 这些 店铺 的 这个 信息 把 它 当成 这个 专有 信息点 去 加入 到 我 这个 输入 里 来 那么 这个 这样的话 就 能 做 一个 防写 的 这样 一个 逻辑 并且 我们 其实 还 可以 对 仿写 做 一些 更 多 的 控制 比方说 如果 我 只 希望 它仿 开头 结尾 那 我 只 需要 把 中间 的 这些 要求 给 照不掉 就行了 所以 整体 上 来看 它 既
可以 做 这种 粗 力度 的 控制 可以 做细 力度 的 控制 这个 结构化 的 控制 会 比较 自由 并且 你 可以 看 下面 这个 例子 它 甚至 能 做 一些 跨行业 的 一个 仿写 左边 其实 是 一个 餐饮行业 的 一个 例子 那 右边 就是 它 可以 仿 出来 一个 休闲 娱乐 行业 的 一个 文案 它 也 能够 仿 出来 然后 就 可以 看到 它 其实 有 很多 的 功能 吧 对 但是
这个 地方 最大 的 一个 问题 其实 还是 容易 产生 幻觉 就 因为 其实 这种 直出 方案 不像 我 刚刚 说 的 这种 润色 方案 就是 润色 方案 它 其实 本身 这个 内容 已经 定 了 就是 我们 那个 基底 剧本 嘛 这个 地方 相比之下 直出 方案 它 幻觉 可能 会 更 容易 出 所以 这个 地方 我们 也 会 做 很多 幻觉 的 优化 但是 我们 之前 介绍 的 这些 优化 其实 已经 不能
满足 我们 的 一个 核心 问题 了 就是 我们 会 发现 一个点 就是 我们 在 生成 模型 里面 一个 非常 头层 的 问题 就是 我们 所有 这种 剧本 模型 它 幻觉 问题 始终 围绕 着 我们 就是 我们 可能 每 一次 都 很 努力 地去 迭代 幻觉 然后 每次 去 单独 地去 为了 幻觉 去 迭代 模型 迭代 数据 这 样子 其实 人力 成本 也 很 高 而且 非常 麻烦 并且 随着 我们 这个 迭代
越来越 深入 那 其实 剩下 的 case 其实 越来越 难解 那 针对 这个 问题 其实 我们 有 两个 思考 角度 就是 就是 我们 直接 硬钢 问题 就是 我们 就 通过 模型 数据 那 甚至 我 甚至 引入 human feedback 去 持续 优化 这个 幻觉 的 bad case 律 那 其实 还有 一条 新 的 思路 就是说 我们 这个 地方 叫做 逃避 虽 可耻 但 有用 就是 我们 可以 考虑 是不是 当 我们 优化 幻觉 到
一定 程度 以后 我们 可以 直接 去 绕开 这个 问题 把 这个 问题 变成 说 我们 去 识别 处 幻觉 然后 去 移处 幻觉 那 这个 样子 我们 其实 我们 的 目标 就 变成 了 从 优化 幻觉 的 Bed Case 率 变成 了 我们 去 关注 这个 幻觉 识别 模型 的 这样 一个 精度 这样 做 有没有 好处 呢 我们 可以 我 这里 立 了 几个 点 啊 就是 首先 这个 方案 二
就是 改写 这个 方案 的 它 上限 更高 因为 刚才 我 说 的 一些 比较 难解 的 幻觉 Case 那 只要 我能 识别 出来 我 就 能够 解掉 然后 并且 它 其实 是 一个 通用 的 任务 也就是说 我 不管 后面 我 做 什么 模型 迭代 前面 我 的 这个 我 的 风格 可以 很多 那 只要 我 只要 我 有 一个 文案 那 我 其实 就 可以 用 这样 一套 链路 去 可以 解决
所有 的 幻觉 问题 那 我 也就是说 我 做 一次 迭代 我 可以 造福 所有 这种 剧本 生成 任务 那 我 不用说 每次 做 一个 剧本 生成 我 还要 单独 去 为了 幻觉 去 迭代 数据 迭代 模型 那 这个 ROI 肯定 是 非常低 的 对 然后 并且 还有 一个点 就是 我们 会 发现 其实 我们 可以 偷懒 就是 因为 这个 幻觉 识别 模型 它 其实 可以 允许 一定 的 假 阳性 的 一个
容错 就是说 模型 识别 出来 的 幻觉 那 假设 它 不是 幻觉 它 是 一个 真实 的 一个 事实 那 怎么办 呢 其实 不要紧 那 无非 就是 它 识别 错 了 那 这个 东西 会 被 最后 的 改写 删除 那 你 删除 就 删除 嘛 你 反正 也 不会 引入 这种 新 的 幻觉 内容 那 其实 对 我们 的 现场 影响 是 很小 的 就 不会 产生 很 恶劣 的 这种 影响 那
所以 其实 我们 实际 在 迭代 的 时候 就 可以 focus 在 这个 幻觉 识别 模型 里面 这种 假音性 的 这种 漏罩 的 bad case 就 可以 了 对 然后 最后 我们 也 是 发现 一个 现象 就是说 当 我 要 生成 的 文案 越 生动 多样 幻觉 出现 的 概率 可能 越大当 我 把 这个 幻觉 问题 解得 越来越 多 幻觉 越来越少 的 时候 文案 可能 会 趋于 平淡 就是
文案 的 多样性 和 幻觉 的 出现 率 本身 就 可能 是 一个 翘翘板 一样 它 是 互斥 的 对 所以 那 就 也 就 意味着 说 当 我们 想 两个 都 要 的 时候 那 你 去 靠 迭代 模型 迭代 数据 这样 ROI 这个 编辑 收益 一定 是 非常低 的 所以 我们 就 需要 通过 这种 方式 去 允许 这个 生成 模型 里面 去 出现 一些 幻觉 然后 我 通过 这种 后置 的
方式 去 给 它 兜住 然后 这个 地方 的 这个 幻觉 我们 主要 分为 两类 吧 一类 是 这种 数字 类 的 这个 幻觉 这种 幻觉 它 其实 出现 的 比较 有 规律 我们 就 没有 必要 说 非得 通过 模型 去 做 那 我 其实 调 一个 正则 就 能够 比较 好 的 去 解决 数字 类 的 幻觉 了 再有 一类 就是 事实 类 的 幻觉 吧 这里 就 确实 需要 用 这种
模型 去 做 我们 的 方案 就是说 我 可以 去 离线 去 调 一些 高 规格 模型 的 prompt 然后 去 做 一个 幻觉 识别 这个 模型 的 识别 的 结果 可能 就是 这个 文案 里面 是不是 存在 幻觉 以及 幻觉 的 归因 然后 通过 人工 清洗 得到 一批 幻觉 识别 的 数据 以后 呢 我们 就 可以
去 fintual 一个 开源 模型 去 相当于 去 蒸馏 高 规格 模型 的 幻觉 识别 的 效果 然后 后面 这个 改写 的 这个 任务 其实 也 是 类似 的 操作 就 用 高 规格 模型 加 清洗 去 做 一个 蒸馏 大概 是 这样 一个 过程 对 然后 就 用 这种 方式 就 能够 比较 好 的 去 绕开 这个 幻觉 问题 吧 然后 也 能够 提高 我们 这个 迭代 的 人效 下面 也 是
给 了 一个 例子 就是 能够 看到 说 通过 这种 方式 能够 比较 有效 地去 识别 出 有 幻觉 问题 的 这样 一个 句子 并且 通过 这个 模型 能 把 这个 句子 给 移 除掉 相当于 是 把 这个 幻觉 问题 给 解掉 对 刚刚 大概 是 我们 整个 这个 剧本 生成 的 一个 整体 眼镜 的 一个 方案 吧 最后 是 一些 规划 和 展望 这块 的话 我们 未来 的 这个 迭代
方向 主要 可能 会 围绕 以下 两个 点 首先 第一个 点 就是 我们 目前 的 文案 优化 可能 还是 偏 先验 经验 偏 调餐 的 一个 方案 那 后续 我们 可能 会 尝试 引入 一些 用户 的 这个 后焰 feedback 甚至 说 做 一些 RHF 或者 DPO 的 这些 方案 去 做 一些 基于 后焰 的 一个 优化 然后
然后 最后 在 结束 之前 呢 还 想 帮 我们 生活 服务 人工智能 团队 打个 招聘广告 就是 我们 生活 服务 业务 呢 它 是 抖音 集团 三大
商业化 部门 之一 就是 有 广告 电商 和 生活 服务 这 三个 商业化 部门 然后 生活 服务 的话 它会 覆盖 到 店 的 这种 场景 比方说 餐饮 和 到 宗 以及 酒旅 这种 场景 的 一个 业务 然后 我们 人工智能 团队 呢 是 隶属于 抖音 生活 服务 部门 之下 然后 我们 现在 团队 成员 呢 应用 类 的 算法 工程师
以及 研究 类 的 算法 工程师 还有 架构 的 研发 工程师 我们 这个 目标 呢 我们 目标 就是 利用 先进 的 AI 技术 来 提升 商业 效率 去 优化 用户 体验 给 业务 带来 全新 的 一个 可能性 然后 我们 这个 工作 范围 会 有 这样 几个 方向 就是 一个 是 这个 AIGC 创作 其实 就是 我 今天 分享
的 这个 业务 方向 对 除此之外 其实 可能 还会 有 智能 客服 啊 知识 图谱 啊 内容 理解 啊 以及 其实 还有 一些 业务 域 的 大 模型 比方说 像 文声文 啊 文声 图 读声文 模型 的 这些 基础 迭代 对 然后 我们 团队 的话 在 北京 上海 成都 都 有 base 感兴趣 的 线下 和 线 上 听众 可以
在 此 拍照 留念 刚刚 说 的 各个 base 各个 方向 都 可以 直接 在 二维码 里 GD 直接 进行 简历 的 投递 我 今天 的 分享 就 到 这 感谢 大家 非常感谢 以晨 给 我们 带来 他们 非常 细致 的 分享 现场 有没有 一些 同学 想 去
问 一些 问题 我 是 来 打个 广告 的 正好 我们 是 跟 李晨 这边 团队 去 配合 是 做 算法 产品 相关 的 然后 这 里面 一些 像 图谱 AIGC 创作 还有 甚至 一些 agent 的 相关 的 我们 也 在 招人 然后 如果 想 做 算法 策略 相关 产品 的 可以 来 加个 微信
就是 刚才 那个 结构化 控制 的 方案 它会 不会 在 一定 程度 上 影响 生成式 大 模型 它 出来 的 效果 的 上限 因为 这个 相对 于是 人工 强制 加入 了 设计者 的 经验 和 规则 而 不是 让 生成式 大 模型 自己 去 试图 学习 它 的 规则
是 这样 的 就是 我 理解 模型 的 上限 就是 模型 的 上限 在于 数据 数据 的 质量 那 其实 像 你 刚刚 说 的 这种 其实 我们 已经 非常少 地 引入 这个 人工 判断 其实 我 刚刚 给出 的 这个 我 这个 结构化 的 这样 一个 提取 其实 更 多 的 是 我 设定 的 规则 刚刚 这个 提取 其实 完全 是 模型 自己 去 实现 的 一个 提取 就 像 我 训练 数据
也 是 模型 生成 的 然后 我 这个 这个 训练 的 目标 也 是 线 上 的 真实 的 目标 所以 说 就 在 这个 方案 其实 我们 就 相当于 说 尽可能 的 去 减少 这个 人工 的 干预 了 就是 可能 就 像 你 说 的 这种 就 人工干预 比较 强 的话 可能 会 是 那种 比方说 我 人工 的 去 改写 或者 人工 的 去 写 一些 规则 人工 的 去 说 我
根据 某 一个 某 一个 文案 那 我 去 人工 的 判断 它 可能 是 一个 什么 样子 的 一个 这样 一个 行为 结构 对 我们 其实 也 是 尽可能 在 避免 这种 事情 那 其实 像 你 刚刚 说 的 那 我 其实 如果 我 就是 未来 还 想 做 深入 那 我 其实 可以 反复 地去 做 迭代 我用 训练 模型 再 去 迭代 我 这个 提取 模型 再 去 迭代 我 这个
生成 模型 其实 也 是 可以 这样 一个 渐进 地去 更进一步 地去 迭代 的 所以 我 理解 这个 问题 其实 对于 我们 来说 还 是不是 太大 OK 然后 还有 第二个 问题 是 我 大概 就是 有 一个 幻觉 的 问题 嘛 那个 幻觉 的 问题 我 先 说 一下 我 的 理解 啊 我 觉得 可能
它 的 其中 一个 本质 是不是 在 标签 数据 里面 AI 位 的 文案 它 也 是 太弱 了 就 相当于 是 你 从 一个 ASR 变到 一个 AI 位 然后 如果 ASR 本身 没有 什么 变化 但是 AI 位 的 文案 它 太弱 了 的话 当 你 反过来 把 这个 标签 反过来 用 的 时候 从 一个 弱 的
变成 一个 强 的 它 是 无法 在 一个 弱 的 信息 里面 摘取 到 更 多 的 信息 以 匹配 那个 强 的 因此 它 自己 就 会 放飞 自我 所以 是不是 有 一种 比较 好 的 解决 方式 是 我们 试图 去 寻找 一些 更好 的 或者 更 强大 的 这种 大 模型 使得 在 制造 标签 的 时候 AI 的 文案 能够 更强 或者 更 多 更 完备 一点 我 觉得 你
说 的 其实 非常 有 道理 所以 其实 也 是 我们 本身 我们 这个 业务 团队 的话 可能 刚刚 探索 是 刚刚 这部分 所以 其实 对应 你 刚刚 说 的 这种 模型 能力 本身 的 迭代 来说 其实 就 对应 我 这里 说 我们 团队 可能 其他 小组 同学 在 做 的 我们 会 做 一些 生活 服务 业务 业务 域 的 一些 基础 模型 的 一些 迭代 那 这个 模型 其实 就 能 满足
你 刚刚 说 的 这种 形态 我 其实 本身 基础 模型 的 能力 我 也 可以 有 一个 提升 也 是 能够 更进一步 地去 解决 刚刚 说 的 这种 幻觉 问题 的 对 您 很 自动化 生成 跟 人工 创意 这件 关系 就 比如说 会 不会 导致 同一 领域 生成 的 内容 都 会 比较 趋于 一致 我们 会 怎么 避免 这个 问题 对 好 问题 其实 我们 说实话 我们 业务 在 run 了 一定
我们 也 确实 也 面临 了 这种 多样性 的 问题 吧 其实 包括 刚刚 我 介绍 的 第二 版 方案 其实 就 尽可能 地 说 想 通过 一些 data 追问 的 方式 去解 这个 多样性 的 问题 你 可以 理解 为 我 这个 多样性 的 上限 在于 什么 在于 我线 上 的 这些 达 人 用户 创作 的 这些 文案 那 它 肯定 是 最 多样 的 那 只要 我 的 学习 目标 是 这类
数据 我 这个 DataGainment 做 得 足够 好 那 理论 上 我 这个 模型 就 能够 逼近 这个 上线 对 吧 我 其实 就是 尽可能 还是 说 尽可能 去 减少 这个 人工 的 定义 那 人工 的 定义 它 一定 是 一个 有限 的 集合 所以 说 我 觉得 像 我们 未来 这个 迭代 方向 尽可能 通过 DataGainment 尽可能 去 逼近 线上 达 人 的 这个 创作 水平 这个 是 一个 多样性 的 一个 根本 解法
那 感谢 李成 给 我们 带来 他 分享 跟 我们 现场 的 一些 讨论 刚刚 那个 招聘 我们 也 可以 分享 给 自己 的 一些 同学 然后 自己 去 投递 至此 的话 我们 今天 嘉宾 的 分享 基本 就 全部 结束 了 然后 我们 四个 嘉宾 从 自己 各自 的 业务
实践 带来 了 一些 非常 好 的 一些 经验 的 一些 分享 希望 对 大家 有所 帮助 也 感谢 现场 嘉宾 的 一些 聆听 谢谢 感谢 逐梦者 的 原动力 是 什么 他们 梦想 着 让 AI 无处不在 战胜 疾病 挑战 探寻 更 清洁
更 环保 更 可靠 的 能源 在 Google , AI 不是 明天 的 事 , 而是 今天 事 。 而且 , 我们 可以 问 回生
的 困难 的 问题 。 Today we
can also ask it to do tough things, like ship that wood more efficiently, use satellites to reduce methane emissions, turn DNA into code to make...
drought-resistant corn? Oh, cool. It can spot and fill pottles, spot disease earlier, spot asteroids to protect Earth. It can create apps with just words and just hours. Today, Google AI can scan 100,000 lines of code in two minutes to spot and fix bugs. It can translate from code
to code and is one step closer to speaking a thousand languages, even when.
Today, AI impacts lives for the better and understands the world the way you do.
Our AI spots threats seven times faster, understands speech sentiments, helps prevent vision loss, weather 10 days out in two minutes, translates thousands of pages in seconds, detects lead pipes to keep drinking water clean, eliminates paperwork so cares more human, generates from text, visuals, audio and video, creates entire worlds from your imagination, creates
this thing, and that thing, a new thing, the new way to cloud.
他们 梦想 着 让 AI 无处不在 战胜 疾病 挑战 探寻 更 清洁 更 环保 更 可靠 的 能源 推进 教育 发展 和 普及 英特尔 是 点燃 创新 的 火种 我们 深信 只要 住 好 根基 所有 梦想 皆 可 实现 新生 无限
With Google, AI isn't a tomorrow thing. It's a today thing. And sure,
we can ask for answers to life's tough questions. But today, we can also ask it to do tough things. Like ship that wood more efficiently. Use satellites to reduce methane emissions. Turn DNA into code to make drought-resistant corn.
Oh, cool. It can spot and fill pottles. disease earlier,
spot asteroids to protect Earth. It can create apps with just words and just hours.
Today, Google AI can scan 100,000 lines of code in two minutes to spot and fix bugs. It can translate from code to code and is one step closer to
fix bugs. It can translate from code to code and is one step closer to speaking a thousand languages, even with. Today, AI
impacts lives for the better and understands the world the way you do. Our AI
spots threats seven times faster. Understands speech sentiment. Helps prevent vision loss. Predicts weather 10 days out in two minutes. Translates thousands of pages in seconds. Detects lead pipes to keep drinking water clean. Eliminates paperwork so cares more human. Generates from text, visuals, audio, and video. Creates entire worlds from your imagination. Creates this thing, some bad thing, a
and video. Creates entire worlds from your imagination. Creates this thing, some bad thing, a new thing. The new way to cloud.
new thing. The new way to cloud.
他们 梦想 着 让 AI 无处不在 战胜 疾病 挑战 探寻 更 清洁 、 更 环保 、 更 可靠 的 能源 推进 教育 发展 和 普及 英特尔 是 点燃 创新 的 火种 我们 深信 只要 住 好 根基 所有 梦想 皆 可 实现 心 生 无限
AI isn't a tomorrow thing. It's a today thing. And sure, we can ask more answers to life's tough questions. But today, we can also ask it to do tough things. Like shift that wood more efficiently. Use satellites to reduce methane emissions.
tough things. Like shift that wood more efficiently. Use satellites to reduce methane emissions.
Turn DNA into code to make drought-resistant corn. Oh,
cool. It can spot and fill potholes. Spot disease earlier.
asteroids to protect Earth. It can create apps with just words and just hours.
Today, Google AI can scan 100,000 lines of code in two minutes to spot and fix bugs. It can translate from code to code and is one step closer to
fix bugs. It can translate from code to code and is one step closer to speaking a thousand languages, even when. Today, AI
impacts lives for the better and understands the world the way you do. Our AI
threats seven times faster, understands speech sentiments, helps prevent vision loss, predicts weather 10 days out in two minutes, translates thousands of pages in seconds, detects lead pipes to keep drinking water clean, eliminates paperwork so cares more human, generates from text, visuals, audio, and video, creates entire worlds from your imagination, creates this thing, some bad thing, a new thing, the new way to cloud.
原動力 是 什麼 ? 他們 夢 想 著 讓 AI 無處 不 在 戰勝 疾病 挑戰 探尋更 清潔 、 更 環保 、 更 可靠 的 能源 推進 教育 發展 和 普及 英特 爾 是 點燃 創新 的 火種 我們 深信 只要 註 好 根基 所有 夢想 皆 可
實現 心生 無限 AI isn't a tomorrow thing. It's a today thing. And sure, we can ask for answers to life's tough questions. But today, we can also ask it to do tough things. Like shift that wood more efficiently. Use satellites to reduce methane emissions.
tough things. Like shift that wood more efficiently. Use satellites to reduce methane emissions.
Turn DNA into code to make drought-resistant corn. Oh,
cool. It can spot and fill pottles. Spot disease earlier.
to protect Earth. It can create apps with just words and just hours.
Today, Google AI can scan 100,000 lines of code in two minutes to spot and fix bugs. It can translate from code to code and is one step closer to
fix bugs. It can translate from code to code and is one step closer to speaking a thousand languages, even with. Today, AI
impacts lives for the better and understands the world the way you do. Our AI
threats seven times faster. Understand speech sentiment. Helps prevent vision loss. Predicts weather 10 days out in two minutes. Translates thousands of pages in seconds. Detects lead pipes to keep drinking water clean. Eliminates paperwork so cares more human. Generates from text, visuals, audio, and video. Creates entire worlds from your imagination. Creates this thing and that thing. A new
video. Creates entire worlds from your imagination. Creates this thing and that thing. A new
thing. The new way. To cloud.
他们 梦想 着 让 AI 无处不在 战胜 疾病 挑战 探寻 更 清洁 、 更 环保 、 更 可靠 的 能源 推进 教育 发展 和 普及 英特尔 是 点燃 创新 的 火种 我们 深信 只要 住 好 根基 所有 梦想 皆 可 实现 心 生 无限
AI isn't a tomorrow thing. It's a today thing. And sure, we can ask for answers to life's tough questions. But today, we can also ask it to do tough things, like shift that wood more efficiently, use satellites to reduce methane emissions, turn DNA into code to make drought-resistant corn. Oh,
cool. It can spot and fill potholes, disease earlier, spot asteroids to protect Earth. It can create apps with just words and just hours.
Today, Google AI can scan 100,000 lines of code in two minutes to spot and fix bugs. It can translate from code to code and is one step closer to
fix bugs. It can translate from code to code and is one step closer to speaking a thousand languages, even where. Today, AI
impacts lives for the better and understands the world the way you do. Your AI
spots threats seven times faster. Understand speech sentiment helps prevent vision loss.
Loading video analysis...