【人工智能】谷歌发布Gemini 3.1 Pro | 重回全球王座 | AGI成绩超3.0 Pro两倍 | 编码能力提升 | 成本更低 | 全平台部署 | 分档定价 | 实际应用效果

By 最佳拍档

Summary

Topics Covered

ARC-AGI推理能力翻倍
编码能力达专业程序员水准
第三方评估登顶成本半价
动画生成与系统整合革命

Full Transcript

大家好，这里是最佳拍档这个春节AI圈可谓又是神仙打架继上周完成Gemini 3 Deep Think的重大更新后谷歌今天正式推出了升级版核心智能模型Gemini 3.1 Pro 这款模型不仅在核心推理能力上实现了跨越式提升更在第三方权威评估中跃居榜首让谷歌重新夺回了全球顶级AI模型的王座

更值得关注的是参与Gemini 3 Deep Think研究的核心研发人员姚顺宇注意这是另一位姚顺宇不是我们之前视频里提到的加入腾讯的姚顺雨在社交平台上明确表示这只是谷歌AI研发的一个新起点后续还会有更好的模型源源不断地涌现今天我们就来介绍一下这款让谷歌重回巅峰的Gemini 3.1 Pro

看看它究竟具备怎样的核心实力又将给AI行业带来哪些新的变化首先谷歌官方在发布博客上明确表示这款模型是基于Gemini 3系列的深度升级核心目标是应对当今科学、研究和工程领域的复杂挑战解决那些以往AI模型无法攻克的棘手问题从技术底层来看

Gemini 3.1 Pro的进步并不只是简单的参数调整而是代表了模型处理思考token和长期任务方式的本质改进也为后续开发者构建自主智能体提供了更可靠的技术基础让AI从简单的指令执行向更具自主决策能力的智能体方向迈出了关键一步接下来我们重点看一下Gemini 3.1 Pro在各类权威基准测试中的具体表现

这也是衡量一款AI模型性能最直观的标准谷歌为这款模型做了全维度的严格基准测试覆盖抽象推理、科学知识、编码能力、多模态理解、长上下文处理等多个核心维度而测试结果也充分印证了其性能的跃升其中最亮眼的当属ARC-AGI-2测试的表现

ARC-AGI-2是专门评估模型解决全新逻辑模式能力的基准测试考验的是模型的抽象推理与未知问题解决能力这也是衡量AI向通用人工智能迈进的重要指标 Gemini 3.1 Pro在该测试中取得了经验证的77.1%成绩这个数据是Gemini 3 Pro的两倍以上

要知道Gemini 3 Pro此前已经是行业内的顶级模型这样的提升幅度在AI模型迭代中实属罕见在科学知识维度 Gemini 3.1 Pro展现出了极致的精准度在GPQA钻石级科学知识测试中模型取得了94.3%的高分相较于Gemini 3 Pro的91.9%有明显提升

同时也领先于Claude Opus 4.6的91.3%和GPT-5.2的92.4%。

GPQA钻石级测试是科学知识领域的高难度测试覆盖多学科的专业科学知识对模型的知识储备与事实性精准度要求极高 94.3%的得分意味着该模型在科学知识的掌握上已经达到了行业顶尖水平能够为科研、工程等专业领域提供可靠的知识支持编码能力作为AI模型的核心实用能力

也是Gemini 3.1 Pro重点升级的方向在多项编码测试中均刷新了成绩纪录在LiveCodeBench Pro测试中模型取得了2887的Elo评分相较于Gemini 3 Pro的2439提升明显更是大幅领先GPT-5.2的2393 这款测试涵盖了Codeforces、ICPC、IOI等顶级编程竞赛的题目

Elo评分直接反映了模型的竞技性编程能力 2887的评分意味着其编码能力已经达到了专业程序员的高水平在SWE-Bench Verified智能体编码测试中 Gemini 3.1 Pro的得分达到80.6%，略低于Claude Opus 4.6的80.8%，

但高于Gemini 3 Pro的76.2%和GPT-5.2的80.0%。

此外在Terminal-Bench 2.0智能体终端编码测试中 Gemini 3.1 Pro 68.5%的得分也领先于同级别其他模型在SciCode科学研究编码测试中 59%的得分同样位居行业前列多模态理解与推理是谷歌Gemini系列的传统优势而Gemini 3.1 Pro在这个领域继续保持领先

在MMMLU多语言问答测试中模型取得了92.6%的得分相较于Gemini 3 Pro的91.8%有小幅提升领先于Claude Opus 4.6的91.1%和GPT-5.2的89.6%。

在MMMU Pro多模态理解与推理测试中 3.1 Pro 80.5%的得分略低于Gemini 3 Pro的81.0%，但是仍大幅领先Claude Opus 4.6的73.9%和GPT-5.2的79.5%，保持了多模态处理的核心优势而在长上下文性能测试中

Gemini 3.1 Pro在100万token的测试中取得了26.3%的成绩与Gemini 3 Pro持平而目前Claude Opus 4.6和GPT-5.2还没有支持这个量级的长上下文处理除了上述核心维度 Gemini 3.1 Pro在学术推理、智能体工具使用、多步骤工作流处理等方面也都有亮眼表现

在Humanity's Last Exam学术推理测试中无工具辅助状态下得分为44.4%，开启搜索与代码功能后得分提升至51.4%，均高于Gemini 3 Pro 展现出了优秀的学术问题解决能力在Tau 2-bench的零售与电信领域测试中零售领域得分为90.8%、电信领域得分为99.3%。

在BrowseComp智能体搜索测试中 85.9%的得分相较于Gemini 3 Pro的59.2%，实现了大幅提升意味着其在结合搜索能力解决问题时更加高效在Apex-Agents长期专业任务测试中 33.5%的得分是Gemini 3 Pro的近两倍展现出了处理长周期、复杂任务的潜力

如果说谷歌自身的测试数据是自证实力那么第三方权威机构的评估则更具客观性而来自Artificial Analysis的评估结果直接让Gemini 3.1 Pro坐稳了全球顶级AI模型的宝座测试结果显示 Gemini 3.1 Pro预览版在Artificial Analysis智能指数中位居第一领先Claude Opus 4.64分更重要的是

它的运行成本还不到Claude Opus 4.6的一半实现了性能领先加成本更低的双重优势 Artificial Analysis的智能指数v4包含10项核心评测涵盖智能体能力、编码、科学推理、通用智能四大权重相等的类别而Gemini 3.1 Pro在这10项评测中领先6项相较于Gemini 3 Pro实现了全维度的性能提升

其中提升最显著的领域正是推理和知识、编码以及幻觉减少而幻觉问题一直是困扰大语言模型的核心痛点幻觉减少意味着模型的输出更加精准、可靠这对于实际应用至关重要同时 Gemini 3.1 Pro还保持了相对高效的token效率运行该智能指数的全部测试仅使用了大约5700万个token

仅比Gemini 3 Pro多出100万个远低于Claude Opus 4.6和GPT-5.2在最大推理设置下的token消耗 token效率的提升直接带来了运行成本的降低让其在商业落地中更具竞争力当然相较于目前领先的开源模型GLM-5 Gemini 3.1 Pro的运行成本仍然接近其两倍

这也是在成本层面需要继续优化的方向谷歌在发布Gemini 3.1 Pro的同时也完成了全平台的部署规划即日起向开发者、企业、消费者三大群体陆续开放预览版实现了全场景的覆盖让不同需求的用户都能第一时间体验到这款模型的能力对于开发者群体

谷歌通过Google AI Studio中的Gemini API、Gemini CLI、智能体开发平台Google Antigravity以及Android Studio提供预览服务开发者可以快速将模型的核心能力融入到自己的产品与项目中降低了开发门槛对于企业用户 Gemini 3.1 Pro同步上线Vertex AI和Gemini Enterprise

能够为企业提供定制化、私有化的AI解决方案满足企业在数据分析、业务处理、智能体构建等方面的需求对于普通消费者谷歌则通过Gemini APP和NotebookLM推出该模型让普通用户也能在日常使用中体验到顶级AI模型的能力比如文档处理、创意生成、知识解答等等

谷歌的企业合作伙伴也已经率先完成了Gemini 3.1 Pro预览版的整合并且给出了高度评价 Databricks的首席技术官唐翰林表示 Gemini 3.1 Pro在Office QA基准测试中取得了同类最佳结果这款测试主要针对表格和非结构化数据进行基于事实的推理这个能力对于企业的数据分析、业务决策至关重要

Cartwheel的联合创始人安德鲁·卡尔则强调 Gemini 3.1 Pro对3D变换的理解有了显著提升更重要的是该模型解决了3D动画管线中长期存在的旋转顺序漏洞问题这是3D动画制作中的技术痛点长期困扰着行业开发者而Gemini 3.1 Pro的解决能力也让其在3D设计、动画制作等创意领域具备了极强的落地价值

作为一款商业级的AI模型定价体系是用户最关注的核心问题之一而Gemini 3.1 Pro的定价稍显复杂采用了分档计费的模式根据提示词token规模、服务类型进行差异化收费我们来详细拆解一下其定价规则首先是输入价格当提示词不超过20万token时每百万token收费2美元

当提示词超过20万token时每百万token收费4美元分档计费的模式兼顾了普通用户的小额使用和专业用户的大额使用需求其次是输出价格同样按提示词token规模分档提示词不超过20万token时每百万token收费12美元；超过20万token时每百万token收费18美元除了输入输出费用

Gemini 3.1 Pro还单独收取上下文缓存费用根据提示词规模每百万token收取0.2至0.4美元同时外加每小时每百万token 4.5美元的存储费，。

最后是联网搜索的费用每月前5000次提示免费超出后每1000次搜索查询收费14美元我们再来看看Gemini 3.1 Pro的实际应用能力谷歌官方展示了Gemini 3.1 Pro在四大核心场景的应用效果第一个场景是基于代码的动画生成 Gemini 3.1 Pro可以直接根据文字提示生成动态SVG图片

这不仅考验模型的代码能力还考验其空间想象、动态逻辑构建能力谷歌还分别用Gemini 3 Pro和Gemini 3.1 Pro执行相同的提示词结果显示Gemini 3.1 Pro生成的动画效果更加流畅、逼真第二个场景是复杂系统整合谷歌给出的案例是搭建实时航空仪表盘模型成功接入公共遥测数据流

将国际空间站的运行轨道直观地呈现出来整个过程无需开发者进行复杂的接口调试和代码编写模型能够自主完成数据对接、界面设计、实时渲染等一系列工作这个能力无疑能够大幅降低系统集成的难度让非专业开发者也能快速构建复杂的数据分析与可视化系统第三个场景是交互式设计

Gemini 3.1 Pro能够编写出复杂的3D椋鸟群飞模拟代码在谷歌的测试中用户可以通过手势追踪来控制鸟群的飞行方向和速度同时还能听到根据鸟群动作实时变化的生成式配乐视觉与听觉的结合让整个交互体验更加丰富这个能力在游戏开发、虚拟现实、交互设计等领域

能够快速将创意转化为可体验的原型大幅缩短研发周期第四个场景是创意编程谷歌以艾米莉·勃朗特的《呼啸山庄》为例要求模型为这部经典小说构建一个现代风格的个人作品集网站而Gemini 3.1 Pro深入理解了小说中充满氛围感的基调结合现代网页设计的审美构思出了时髦又现代的界面

最终打造出的网站精准捕捉了小说主人公的精神内核将文学的情感与美感通过代码完美呈现最后需要明确的是这次推出的Gemini 3.1 Pro并非正式版而是预览版谷歌的核心目标是通过预览版的开放收集用户的反馈进一步优化模型性能同时在自主工作流等核心领域寻求新的突破

为后续的正式全面开放做好准备在用户权限方面，谷歌从发布之日起逐步为Gemini app中的Google AI Pro和Ultra套餐用户开放更高的使用额度这两类用户也是谷歌的付费核心用户同时 NotebookLM中的Gemini 3.1 Pro也专供Pro和Ultra用户使用保证了付费用户的体验

从Gemini 3 Pro到Gemini 3.1 Pro 谷歌用短短几个月的时间实现了模型性能的跨越式提升而姚顺宇透露的后续还有更好的模型也让我们对谷歌的AI研发充满期待 Gemini 3.1 Pro的推出不仅让谷歌重新夺回了AI领域的王座更让整个行业看到了AI模型在推理能力、实际应用、成本控制等方面的新可能接下来

还有哪家大模型厂商会放出新的模型呢让我们拭目以待感谢收看，我们下期再见

Loading...

Loading video analysis...