【人工智能】谷歌发布Gemini 3.1 Pro | 重回全球王座 | AGI成绩超3.0 Pro两倍 | 编码能力提升 | 成本更低 | 全平台部署 | 分档定价 | 实际应用效果
By 最佳拍档
Summary
Topics Covered
- ARC-AGI推理能力翻倍
- 编码能力达专业程序员水准
- 第三方评估登顶成本半价
- 动画生成与系统整合革命
Full Transcript
大家好,这里是最佳拍档 这个春节AI圈可谓又是神仙打架 继上周完成Gemini 3 Deep Think的重大更新后 谷歌今天正式推出了升级版核心智能模型Gemini 3.1 Pro 这款模型不仅在核心推理能力上实现了跨越式提升 更在第三方权威评估中跃居榜首 让谷歌重新夺回了全球顶级AI模型的王座
更值得关注的是 参与Gemini 3 Deep Think研究的核心研发人员姚顺宇 注意这是另一位姚顺宇 不是我们之前视频里提到的加入腾讯的姚顺雨 在社交平台上明确表示 这只是谷歌AI研发的一个新起点 后续还会有更好的模型源源不断地涌现 今天 我们就来介绍一下这款让谷歌重回巅峰的Gemini 3.1 Pro
看看它究竟具备怎样的核心实力 又将给AI行业带来哪些新的变化 首先 谷歌官方在发布博客上明确表示 这款模型是基于Gemini 3系列的深度升级 核心目标是应对当今科学、研究和工程领域的复杂挑战 解决那些以往AI模型无法攻克的棘手问题 从技术底层来看
Gemini 3.1 Pro的进步并不只是简单的参数调整 而是代表了模型处理思考token和长期任务方式的本质改进 也为后续开发者构建自主智能体提供了更可靠的技术基础 让AI从简单的指令执行 向更具自主决策能力的智能体方向 迈出了关键一步 接下来 我们重点看一下Gemini 3.1 Pro在各类权威基准测试中的具体表现
这也是衡量一款AI模型性能最直观的标准 谷歌为这款模型做了全维度的严格基准测试 覆盖抽象推理、科学知识、编码能力、多模态理解、长上下文处理等多个核心维度 而测试结果也充分印证了其性能的跃升 其中最亮眼的当属ARC-AGI-2测试的表现
ARC-AGI-2是专门评估模型解决全新逻辑模式能力的基准测试 考验的是模型的抽象推理与未知问题解决能力 这也是衡量AI向通用人工智能迈进的重要指标 Gemini 3.1 Pro在该测试中取得了经验证的77.1%成绩 这个数据是Gemini 3 Pro的两倍以上
要知道Gemini 3 Pro此前已经是行业内的顶级模型 这样的提升幅度在AI模型迭代中实属罕见 在科学知识维度 Gemini 3.1 Pro展现出了极致的精准度 在GPQA钻石级科学知识测试中 模型取得了94.3%的高分 相较于Gemini 3 Pro的91.9%有明显提升
同时也领先于Claude Opus 4.6的91.3%和GPT-5.2的92.4%。
GPQA钻石级测试是科学知识领域的高难度测试 覆盖多学科的专业科学知识 对模型的知识储备与事实性精准度要求极高 94.3%的得分意味着该模型在科学知识的掌握上已经达到了行业顶尖水平 能够为科研、工程等专业领域提供可靠的知识支持 编码能力作为AI模型的核心实用能力
也是Gemini 3.1 Pro重点升级的方向 在多项编码测试中均刷新了成绩纪录 在LiveCodeBench Pro测试中 模型取得了2887的Elo评分 相较于Gemini 3 Pro的2439提升明显 更是大幅领先GPT-5.2的2393 这款测试涵盖了Codeforces、ICPC、IOI等顶级编程竞赛的题目
Elo评分直接反映了模型的竞技性编程能力 2887的评分意味着其编码能力已经达到了专业程序员的高水平 在SWE-Bench Verified智能体编码测试中 Gemini 3.1 Pro的得分达到80.6%, 略低于Claude Opus 4.6的80.8%,
但高于Gemini 3 Pro的76.2%和GPT-5.2的80.0%。
此外 在Terminal-Bench 2.0智能体终端编码测试中 Gemini 3.1 Pro 68.5%的得分也领先于同级别其他模型 在SciCode科学研究编码测试中 59%的得分同样位居行业前列 多模态理解与推理是谷歌Gemini系列的传统优势 而Gemini 3.1 Pro在这个领域继续保持领先
在MMMLU多语言问答测试中 模型取得了92.6%的得分 相较于Gemini 3 Pro的91.8%有小幅提升 领先于Claude Opus 4.6的91.1%和GPT-5.2的89.6%。
在MMMU Pro多模态理解与推理测试中 3.1 Pro 80.5%的得分略低于Gemini 3 Pro的81.0%, 但是仍大幅领先Claude Opus 4.6的73.9%和GPT-5.2的79.5%, 保持了多模态处理的核心优势 而在长上下文性能测试中
Gemini 3.1 Pro在100万token的测试中取得了26.3%的成绩 与Gemini 3 Pro持平 而目前Claude Opus 4.6和GPT-5.2还没有支持这个量级的长上下文处理 除了上述核心维度 Gemini 3.1 Pro在学术推理、智能体工具使用、多步骤工作流处理等方面也都有亮眼表现
在Humanity's Last Exam学术推理测试中 无工具辅助状态下得分为44.4%, 开启搜索与代码功能后得分提升至51.4%, 均高于Gemini 3 Pro 展现出了优秀的学术问题解决能力 在Tau 2-bench的零售与电信领域测试中 零售领域得分为90.8%、电信领域得分为99.3%。
在BrowseComp智能体搜索测试中 85.9%的得分相较于Gemini 3 Pro的59.2%, 实现了大幅提升 意味着其在结合搜索能力解决问题时更加高效 在Apex-Agents长期专业任务测试中 33.5%的得分是Gemini 3 Pro的近两倍 展现出了处理长周期、复杂任务的潜力
如果说谷歌自身的测试数据是自证实力 那么第三方权威机构的评估则更具客观性 而来自Artificial Analysis的评估结果 直接让Gemini 3.1 Pro坐稳了全球顶级AI模型的宝座 测试结果显示 Gemini 3.1 Pro预览版在Artificial Analysis智能指数中位居第一 领先Claude Opus 4.64分 更重要的是
它的运行成本还不到Claude Opus 4.6的一半 实现了性能领先加成本更低的双重优势 Artificial Analysis的智能指数v4包含10项核心评测 涵盖智能体能力、编码、科学推理、通用智能四大权重相等的类别 而Gemini 3.1 Pro在这10项评测中领先6项 相较于Gemini 3 Pro实现了全维度的性能提升
其中提升最显著的领域正是推理和知识、编码以及幻觉减少 而幻觉问题一直是困扰大语言模型的核心痛点 幻觉减少意味着模型的输出更加精准、可靠 这对于实际应用至关重要 同时 Gemini 3.1 Pro还保持了相对高效的token效率 运行该智能指数的全部测试仅使用了大约5700万个token
仅比Gemini 3 Pro多出100万个 远低于Claude Opus 4.6和GPT-5.2在最大推理设置下的token消耗 token效率的提升直接带来了运行成本的降低 让其在商业落地中更具竞争力 当然 相较于目前领先的开源模型GLM-5 Gemini 3.1 Pro的运行成本仍然接近其两倍
这也是在成本层面需要继续优化的方向 谷歌在发布Gemini 3.1 Pro的同时 也完成了全平台的部署规划 即日起向开发者、企业、消费者三大群体陆续开放预览版 实现了全场景的覆盖 让不同需求的用户都能第一时间体验到这款模型的能力 对于开发者群体
谷歌通过Google AI Studio中的Gemini API、Gemini CLI、智能体开发平台Google Antigravity以及Android Studio提供预览服务 开发者可以快速将模型的核心能力融入到自己的产品与项目中 降低了开发门槛 对于企业用户 Gemini 3.1 Pro同步上线Vertex AI和Gemini Enterprise
能够为企业提供定制化、私有化的AI解决方案 满足企业在数据分析、业务处理、智能体构建等方面的需求 对于普通消费者 谷歌则通过Gemini APP和NotebookLM推出该模型 让普通用户也能在日常使用中体验到顶级AI模型的能力 比如文档处理、创意生成、知识解答等等
谷歌的企业合作伙伴也已经率先完成了Gemini 3.1 Pro预览版的整合 并且给出了高度评价 Databricks的首席技术官唐翰林表示 Gemini 3.1 Pro在Office QA基准测试中取得了同类最佳结果 这款测试主要针对表格和非结构化数据进行基于事实的推理 这个能力对于企业的数据分析、业务决策至关重要
Cartwheel的联合创始人安德鲁·卡尔则强调 Gemini 3.1 Pro对3D变换的理解有了显著提升 更重要的是 该模型解决了3D动画管线中长期存在的旋转顺序漏洞问题 这是3D动画制作中的技术痛点 长期困扰着行业开发者 而Gemini 3.1 Pro的解决能力 也让其在3D设计、动画制作等创意领域具备了极强的落地价值
作为一款商业级的AI模型 定价体系是用户最关注的核心问题之一 而Gemini 3.1 Pro的定价稍显复杂 采用了分档计费的模式 根据提示词token规模、服务类型进行差异化收费 我们来详细拆解一下其定价规则 首先是输入价格 当提示词不超过20万token时 每百万token收费2美元
当提示词超过20万token时 每百万token收费4美元 分档计费的模式 兼顾了普通用户的小额使用和专业用户的大额使用需求 其次是输出价格 同样按提示词token规模分档 提示词不超过20万token时 每百万token收费12美元; 超过20万token时 每百万token收费18美元 除了输入输出费用
Gemini 3.1 Pro还单独收取上下文缓存费用 根据提示词规模 每百万token收取0.2至0.4美元 同时外加每小时每百万token 4.5美元的存储费,。
最后是联网搜索的费用 每月前5000次提示免费 超出后每1000次搜索查询收费14美元 我们再来看看Gemini 3.1 Pro的实际应用能力 谷歌官方展示了Gemini 3.1 Pro在四大核心场景的应用效果 第一个场景是基于代码的动画生成 Gemini 3.1 Pro可以直接根据文字提示 生成动态SVG图片
这不仅考验模型的代码能力 还考验其空间想象、动态逻辑构建能力 谷歌还分别用Gemini 3 Pro和Gemini 3.1 Pro执行相同的提示词 结果显示Gemini 3.1 Pro生成的动画效果更加流畅、逼真 第二个场景是复杂系统整合 谷歌给出的案例是搭建实时航空仪表盘 模型成功接入公共遥测数据流
将国际空间站的运行轨道直观地呈现出来 整个过程无需开发者进行复杂的接口调试和代码编写 模型能够自主完成数据对接、界面设计、实时渲染等一系列工作 这个能力无疑能够大幅降低系统集成的难度 让非专业开发者也能快速构建复杂的数据分析与可视化系统 第三个场景是交互式设计
Gemini 3.1 Pro能够编写出复杂的3D椋鸟群飞模拟代码 在谷歌的测试中 用户可以通过手势追踪来控制鸟群的飞行方向和速度 同时还能听到根据鸟群动作实时变化的生成式配乐 视觉与听觉的结合让整个交互体验更加丰富 这个能力在游戏开发、虚拟现实、交互设计等领域
能够快速将创意转化为可体验的原型 大幅缩短研发周期 第四个场景是创意编程 谷歌以艾米莉·勃朗特的《呼啸山庄》为例 要求模型为这部经典小说构建一个现代风格的个人作品集网站 而Gemini 3.1 Pro深入理解了小说中充满氛围感的基调 结合现代网页设计的审美 构思出了时髦又现代的界面
最终打造出的网站精准捕捉了小说主人公的精神内核 将文学的情感与美感通过代码完美呈现 最后需要明确的是 这次推出的Gemini 3.1 Pro并非正式版 而是预览版 谷歌的核心目标是通过预览版的开放 收集用户的反馈 进一步优化模型性能 同时在自主工作流等核心领域寻求新的突破
为后续的正式全面开放做好准备 在用户权限方面,谷歌从发布之日起 逐步为Gemini app中的Google AI Pro和Ultra套餐用户开放更高的使用额度 这两类用户也是谷歌的付费核心用户 同时 NotebookLM中的Gemini 3.1 Pro也专供Pro和Ultra用户使用 保证了付费用户的体验
从Gemini 3 Pro到Gemini 3.1 Pro 谷歌用短短几个月的时间实现了模型性能的跨越式提升 而姚顺宇透露的 后续还有更好的模型 也让我们对谷歌的AI研发充满期待 Gemini 3.1 Pro的推出 不仅让谷歌重新夺回了AI领域的王座 更让整个行业看到了AI模型在推理能力、实际应用、成本控制等方面的新可能 接下来
还有哪家大模型厂商会放出新的模型呢 让我们拭目以待 感谢收看,我们下期再见
Loading video analysis...