首个类人思考模型,100 ?token 上下文,LMArena 排行榜第一
Gemini 2.5 Pro ?Google ?2025 ?3 月发布的最?AI 模型,被称为"最智能?AI 模型"。它是首个具?思?能力的混合模型,能够在回答问题前进行深度推理,模拟人类的快慢思考过程?
回答前进行推理,模拟人类快慢思考过?/p>
100 ?token(即将扩展至 200 万),可处理整本?/p>
原生支持文本、图像、视频、音频、代?/p>
SWE-Bench 63.8%,单提示词生成完整游?/p>
| 测试项目 | Gemini 2.5 Pro | GPT-4.5 | Claude 3.7 | Grok-3 |
|---|---|---|---|---|
| LMArena 综合 | #1 (+40) | #2 | #3 | #4 |
| AIME 2025 数学 | 86.7% | 72.3% | 68.5% | 64.2% |
| GPQA 科学 | 84% | 78% | 75% | 71% |
| SWE-Bench 代码 | 63.8% | 55.2% | 72.5% | 48.1% |
| 视觉推理 | 81.7% | 76.3% | 74.8% | 69.5% |
Gemini 2.5 Pro ?思考模?,意味着它能在回答前进行推理。这种能力使其能够处理更复杂的问题,逐步接近问题、细化潜在解决方案,最终选择最优答案?
100 ?token 的上下文窗口(约 75 万单词),可以一次性处理《指环王》全系列文本。未来将扩展?200 ?token?
仅用单行提示即可生成完整可执行代码,创建交互式动画、游戏或数据可视化程序。在智能体代码评估中表现出色?
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-pro-preview")
# 启用思考模?
response = model.generate_content(
"分析这段代码的性能问题并提供优化建?,
generation_config={
"temperature": 0.7,
"max_output_tokens": 64000,
}
)
# 查看思考过?
print("思考过?", response.candidates[0].thinking)
print("最终回?", response.text)
处理 TB 级数据集,从视频提取信息
分析整本书、法律合同、研究论?/p>
单提示词生成完整交互式游?/p>
复杂数学推理和科学问题求?/p>