首款 MoE 架构多模态开源模型,千万 token 上下文,挑战 GPT-4o
Llama 4 ?Meta ?2025 ?4 ?5 日发布的新一代开源大模型,首次采用混合专?MoE)架构,支持文本、图像、视频、音频多模态处理。这? Meta ?AI 领域的重大突破,标志着开源模型正式进入与闭源模型正面竞争的新阶段?
混合专家架构,动态路由,高效推理
文本/图像/视频/音频统一处理
Scout 支持 1000 ?token 上下?/p>
专为文档摘要、代码库分析等长文本任务设计,可在单?H100 GPU 上运行?/p>
主力旗舰版本,在编程、数学推理、多语言处理等任务中超越 GPT-4o ?Gemini 2.0?
终极版本? 万亿参数,STEM 基准测试超越 GPT-4.5 ?Claude Sonnet 3.7?/p>
| 模型 | 参数?/th> | 上下?/th> | 多模?/th> | 开?/th> |
|---|---|---|---|---|
| Llama 4 Maverick | 4000?/td> | 128K | ?/td> | ?/td> |
| GPT-4o | 未公开 | 128K | ?/td> | ?/td> |
| Gemini 2.0 | 未公开 | 1M | ?/td> | ?/td> |
| DeepSeek V3 | 6850?/td> | 128K | ?/td> | ?/td> |
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "meta-llama/Llama-4-Maverick"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
inputs = tokenizer("Hello, Llama 4!", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))
# 下载并运?Llama 4 ollama pull llama4-maverick ollama run llama4-maverick