
小编速览
近日,谷歌低调发布 Gemini 3 Pro。多项基准测试中,它在空间理解、屏幕理解等领域碾压 GPT-5.1,屏幕截图理解准确率达 72.7%。模型涵盖文档、空间、屏幕、视频四大核心能力,支持像素级定位、高帧率视频因果推理等。新增 media_resolution 参数,可灵活平衡精度与成本,目前在谷歌 AI Studio 免费开放,可玩性拉满~
在一个不起眼的角落,谷歌发布了一篇技术博客。
关于 Gemini 3 Pro 的「多模态」能力。
借用谷歌 AI Studio 产品负责人 Logan Kilpatrick 的一句话总结:
「Gemini 3 Pro 在大多数多模态基准测试和案例中继续保持 SOTA。」展开剩余85%SOTA,State of the art,表示最强、遥遥领先。
Logan 不是在吹牛。
01|先看结果
直接上数据。
MMMU-Pro 测试,衡量模型的多模态理解和推理能力。
Gemini 3 Pro 拿到了 81%。
作为对比,GPT-5.1 和 Claude Opus 4.5 分别是 76% 和 72%。
CharXiv Reasoning,测试的是科学图表的理解和推理能力。
Gemini 3 Pro 得分 81.4%,超过了 GPT-5.1 的 69.5%,也超过了人类基准的 80.5%。
真正拉开差距的是空间理解。
Point-Bench,测试空间定位能力,Gemini 3 Pro 准确率 85.5%,而 GPT-5.1 只有 41.8%。
RefSpatial,测试多步空间推理,Gemini 3 Pro 是 65.5%,GPT-5.1 是 28.2%。
另外一个是屏幕理解,差距大的有点离谱。
ScreenSpot Pro,测试模型在软件中定位 GUI 元素的能力。
Gemini 3 Pro 达到 72.7%,而上一代 Gemini 2.5 Pro 是 11.4%,GPT-5.1 仅有 3.5%。
直接碾压了。
02|四大能力
1.文档理解:复杂内容精准结构化
文档理解,先说这个。
一份扫描件,如果是那种字迹潦草、表格歪斜、公式模糊的,用传统 OCR 技术识别,大概率不会很准确。
Gemini 3 Pro 就是来解决这个问题的。
来自谷歌官方的一个案例。
一份 18 世纪商人的手写账簿,泛黄的纸张、潦草的字迹、歪歪扭扭的表格线。
投喂给 Gemini 3 Pro,直接输出一张完美的结构化表格。
再比如手写的数学公式,直接转换成精准的 LaTeX 代码。
2.空间理解:像素级精确定位
这个能力听起来抽象,举个例子你就懂了。
你指着一堆零件问 AI:“螺丝刀在哪?”
以前的模型会说:“在桌子右边。”
Gemini 3 Pro 会说:“坐标 (324, 156)。”
像素级精确定位。
对机器人和 AR 设备来说,算是质的飞跃了。
3.屏幕理解:高效操控数字界面
这是提升最大的部分。
AI 帮你操作电脑,这个能力是核心。
比如让 Gemini 3 Pro 在 Excel 里自动操作。
精确点击单元格、移动光标、输入数据、创建数据透视表,整个过程相当丝滑。
还记得前面的基准测试数据吗?
ScreenSpot Pro 测试,Gemini 3 Pro 准确率高达 72.7%。
4.视频理解
一直是 Gemini 的强项。
并且,很久以来,只有 Gemini 独一份能直接解读视频输入。
Gemini 3 Pro 支持 10 FPS 的高帧率分析,是默认速度的 10 倍。
这意味着,高尔夫挥杆、网球发球这类快速动作,它能逐帧分析,告诉你哪个瞬间重心不对、哪个角度发力有问题。
它不只是识别“发生了什么”,而是能理解“为什么会发生”。
谷歌官方称它为:因果推理。
AI 终于会“看懂”视频了。
03|一个细节
对于 Gemini 3 Pro API,谷歌这次开放了一个新参数 media_resolution。
开发者可以在高保真度和低成本之间灵活选择。
不是所有任务都需要最高精度。
高分辨率模式适合复杂 OCR 和文档处理;低分辨率模式适合简单场景识别和长上下文任务。
AI Studio 里就能玩,在这里。
结语
实际上,多模态一直是 Gemini 系列模型的核心卖点。
从 Gemini 1.0 开始,谷歌就在强调“原生多模态”的架构优势。
这次的 Gemini 3 Pro,算是把这个技术优势拉到了一个新高度。
具体好不好用,你试试。
依旧推荐谷歌 AI Studio。
免费,模型满血,参数齐全,可玩性很高。
转载来源:AI信息Gap
发布于:山西省一鼎盈提示:文章来自网络,不代表本站观点。