LongCut logo

【卷哭对手】除夕夜发布的最新旗舰Qwen3.5,能赢吗?

By 檀东东·Tango

Summary

Topics Covered

  • 原生多模态理解物理现实
  • 视觉推理驱动操作步骤
  • 短视频算法猜想动态链路
  • 视觉智能体自动化复杂任务
  • 开源Qwen领跑全球AGI路径

Full Transcript

hello朋友们 新年好 就在除夕那天 在你吃年夜饭的时候 阿里工程师端出了一道AI硬菜 最新旗舰模型 原生多模态 Qwen 3.5 而且开源了同系列的Qwen 3.5-397B-A17B Qwen 3.5可能是绝大部分普通人 能够触及的最聪明的AI助手了 你们家过年吵架干仗没 我记忆里经常干仗 原生家庭可能帮不了你 打开chat.qwen.ai

打开chat.qwen.ai 选择最新旗舰Qwen 3.5-Plus 为什么不幸福的家庭夫妻俩 总喜欢在年关争吵打架摔东西 当然Qwen 3.5也有解法 从计划回家过年开始 到正月初八返程开工 针对5个关键时间节点 给出了具体的战术执行动作 完整的对话我放简介了 你一看就知道有逻辑有深度有价值 请你喝杯奶茶那是小福利

帮你过好日子才是大作用 新年快乐 Qwen 3.5 不光理解你的生活 它也理解物理世界 一根7米的杆子过3米高4米宽的院门 它不会被勾股定理骗到 Qwen 3.5是有空间想象力的 将杆子顺着拿就能过 那同样的问题 小豆的深度思考就是过不了 这就是差距 聪明的模型必须得理解现实逻辑 因为Qwen 3.5 是原生多模态模型

就从预训练的第一天起 就同时学习视频 音频 图片 文字 多种模态的数据 所有模态共享统一的底层表征空间 就像我们人类一样 用同一个大脑 同时处理视觉听觉和语言 比如你能听指令 立即算出红色的字加蓝色的字 等于马年大吉 接下来就展示一下 Qwen 3.5的视觉推理能力有多强 这是一堆散落在地上的数码产品 我就问Qwen 3.5

图中有哪些数码设备 这是个什么相机 所有电池都没电了 我现在急着手持拍摄 我又想同时给电池充电备用 接下来应该怎么操作 告诉我具体的操作步骤 我不知道你能不能看明白 Qwen 3.5 很明白 它精准识别了安克充电宝 影石的运动相机Ace Pro 2 三块电池 三槽充电盒 还有短手柄 我需要一边拍摄一边给备用电池充电 Qwen 3.5 知道

可以利用充电宝的多口输出功能 一块电池装入相机 剩下两块电池装入充电盒 这里看细节 它知道 Ace Pro 2 运动相机支持直供电拍摄的 但是装入电池可以作为缓冲 防止线材松动导致突然关机 而且能实现边拍边充 后面它还提醒我 给相机供电用长线 方便拍摄 这就是真正的视觉理解加深度推理 早期的Qwen做数独

只能推理某个空白的答案 比如说这个蓝色的区域填4 那现在的Qwen 3.5 它能够直接填满所有空格 这还只是简单难度 so easy 那我来个困难的 这个我得做半天 它十几秒就填对了所有数字 数独推理 非常考验模型的视觉理解 和逻辑严密性 我们再来基于视频的推理 小试牛刀一下 Qwen你看看 我的餐好了吗 视频画面一晃而过 它先看小票 再看屏幕

39192准备中 我的餐还没好 等我的号码跳到右边那一栏 就可以去拿了 还没好 为什么没好 什么时候好 真是耐心又全面的回答 再基于这段40秒的视频 你统计一下 这段时间内有多少人进店 多少人出店 Qwen 3.5准确统计出来了 出店3人 进店1人 进出的时间点 穿什么衣服 拿了什么东西 清清楚楚 这个能力非常有市场

等再成熟一点 门店摄像头一开 那客流分析AI全搞定 进店率 提袋率 性别比 停留时间 都能精准分析 这就是原生多模态聪明透视眼的实力 春节期间 我在杭州经常看到千玺的千问广告 但是我发现一个很有意思的细节 春节期间投放的视频 删掉了 写作写PPT用千问 这个场景内容 我就把两段视频放一块 让Qwen 3.5分析一下 有什么不同 为什么

它知道春节投放的视频 刻意删掉了 写作 写PPT的职场办公镜头 只保留了生活娱乐和聚会场景 这是为了避免节日焦虑 维护节日氛围 节前有写总结写PPT的需求 那春节期间就好好过节 不给人添堵 生图生视频 可以增加节日的趣味性和互动性 点外卖也符合家庭聚会 吃喝玩乐的需求 那这些功能可以强化情感链接

阿里千问APP 通过这种细微的剪辑调整 传达了一种懂你的品牌温度 暗示用户 放假了就好好休息 别想工作了 开开心心过年就好 所以我也是等大家快开工了才发这个视频 我发现了这个细微的差别 知道背后的大概意思 但是Qwen 3.5 分析的更透彻 不服不行 还有一个跟你息息相关的例子 Qwen 3.5 仅仅通过一段操作录屏 它就能够透彻的分析

你是如何被短视频推荐算法拿捏的 当你刷短视频的时候 下面会有相关搜索关键词 你点一下 水牛寿命多少年 跳转之后 如果你再退回去 下面的相关搜索关键词就变成了 牛为什么对人很温顺 再点击跳转之后再退回去 关键词又变成了 牛吃干草有营养吗 第三次点击跳转之后再退回去 关键词又变成了 母牛生完小牛反应

第四次点击跳转之后再退回去 关键词又变回了最初始的那个 水牛寿命多少年 实现了循环 这只是视频下面的相关搜索 还有信息流中间夹着的相关搜索 我就把这一段1分多钟的录屏操作 发给Qwen 3.5 问它发现了平台推荐算法的什么规律 Qwen 3.5 的推理非常惊艳 总结了几个显著规律 核心规律是猜你想搜的动态链路推荐 算法根据视频内容

自动构建了一个知识图谱 它在引导你你进行阶梯式探索 预判你看完一个知识点之后 下一个最可能的疑问是什么 直接做成按钮 诱导你连续点击 Qwen 3.5 也发现了 平台会基于视频内容的画面 推荐关键词 视频没有标题 就画面上三个字 平台却自动生成了4个 相关的搜索关键词 它还发现了 平台会在搜索结果页里面继续埋陷阱

预埋更多的相关搜索气泡标签 防止你搜完就离开 试图将工具型搜索转化为内容型浏览 这个总结很到位 Qwen 3.5 还发现了行为反馈的即时性 每次返回底部的推荐词 几乎是瞬间变化的 这说明推荐系统是在线学习的 它当然也发现了循环和重置机制 表明推荐策略存在一个预设的闭环Loop 这个推荐算法恐怖吧 Qwen 3.5说

这种机制的目的是 最大化你的停留时间和交互深度 通过不断地抛出新的认知缺口 让你在不知不觉中 从一个视频 滑向无数个相关的搜索结果页 除了卸载 你无路可逃 所以少刷点短视频 把这个时间省下来 去研究研究AI怎么提升自己的生产力也好啊 Qwen 3.5 除了聪明 透视 还非常能干 给你看个惊艳的 这是一份完整的研究报告

我丢给Qwen 3.5 做一份图文并茂的PPT 要有丰富的配图 每页PPT尽量遵循金字塔原理 结论先行 来感受一下原生多模态的恐怖直出能力 完全告别以前那种套模板的行为 严格遵守金字塔原理 结论先行 排版逻辑结构清晰 元素设计精美 icon图标的应用恰当准确 三维立体效果酷炫 整体风格色系统一 谁看了不迷糊

你也可以用Qwen 3.5 驱动深度研究 生成研究报告之后 可以进一步Web dev 直接创建一个可交互的展示网页 也可以直接创建Podcast的博客 原生多模态的Qwen 3.5 也可以作为视觉智能体 自主地操作手机或者电脑 完成日常任务 展现出很强的GUI能力 比如说在移动端 让它操控手机 自己去油管搜索Qwen 3 VL 的相关视频

然后点赞并且保存到稍后观看 同时还要留下评论it is helpful 再比如电脑端 让Qwen 3.5 自己去分类整理混乱的文件夹 新建PDF图片等等不同的文件夹 然后再把不同的文件 拖到对应的文件夹里 在电脑端 它能够跨应用的整理数据 自动化的处理多步骤的复杂任务 相当有眼力见 眼力有活立马就干了 那以后

很多电脑上一些低级的重复性的工作 都会被原生多模态的AI取代 还有基于视觉的编程 上传一段视频就能够复刻游戏代码 更专业的开发场景我不擅长 你可以去chat.qwen.ai

你可以去chat.qwen.ai 狠狠体验一下 我体验下来 感觉Qwen 3.5 是目前阿里模型里面最省心 也最惊艳的 开源的Qwen 3.5-397B-A17B 在智能体编程 智能体终端编程 智能体工具调用 全能智能体交互方面 表现都很棒 部分超过Gemini 3 Pro 整体和Gemini 3 Pro的实力相当 它和参数量超过1T的Qwen 3-Max 表现相当 激活参数只有17B

所以成本就打下来了 基于Qwen 3-Next开发的 更高稀疏度的MoE架构 加上基于门控的混合线性注意力机制 Qwen 3.5-397B-A17B的解码吞吐量 是Qwen 3-Max的19倍 而且性能相当 原生多模态的视觉能力 也比相近规模的Qwen 3 VL效果还好 它的多语言覆盖也从119种增加到201种 更适合全球化的应用

这就是目前Qwen系列最强的开源模型 现在Qwen也是全球开源模型top 1 衍生模型数量20万+ 模型下载量10亿+ 平均每天会被下载110万次 去年10月份 黄仁勋在GDC大会上分享 Qwen已经占据了开源模型市场的大头 领先优势还在持续的扩大 谁能赢得AI开发者 谁就能赢得AI的未来 黄仁勋还说 真正颠覆未来的 是AI如何与物理现实融合

感知物理世界并完成理解和推理 最终执行复杂任务 可以说原生多模态是实现AGI的关键路径 这也是Qwen 3.5 的核心战场 现在中国的开源模型已经超过美国 阿里的Qwen在去年9月份就已经超过了Meta的Llama 成为全球应用最多的开源模型 去年12月份 Qwen模型的单月下载量 就超过了其他所有对手的总和 在当下全球AI竞争格局下 Qwen的生态已经形成了

这都是工程师们拼命肝出来的 毕竟他们除夕夜都还在发新模型 我也是大过年的加班加点肝视频 你也快去试试 谢谢你的时间 下个视频再见

Loading...

Loading video analysis...