AIモデル 性能比較マトリクス

最新モデルから過去のモデルまで。ユースケースに合わせて最適なモデルを選定できます。

🎯 最適なモデルを探す:
モデル名 ステータス 開発企業 MMLU (一般) HumanEval 文脈 API 1M ($)
Google Gemini 2.0 Flash Latest
C
7
100万トークン
Meta Llama 4 Maverick Latest
C
8
512,000トークン
Mistral Large 3 Latest
C
8
256,000トークン
Anthropic Claude 3.5 Sonnet Latest
C
10
200,000トークン
Claude Sonnet 4.6 Latest
C
9
1Mトークン
OpenAI o3 Latest
C
9
不明
OpenAI GPT-4o Latest
C
7
128Kトークン
OpenAI GPT-4.1 Latest
C
9
100万トークン
Gemini 2.0 Flash Latest
C
7
1Mトークン (入力), 8Kトークン (出力)
Google Gemini 2.5 Flash Latest
C
8
1,048,576トークン
Google Gemini 2.5 Pro Latest
C
9
100万トークン (200万トークンに拡張予定)
Llama 4 Maverick Latest Meta
S
96
C
9
128k tokens $N/A / $N/A
GPT-5.4 Latest OpenAI
S
100
S
87
300k tokens $$5.00/1M / $$20.00/1M
Claude 3.7 Sonnet Latest Anthropic
S
98
B
70
200k tokens $$3.00/1M / $$15.00/1M
Claude 3.5 Sonnet Latest Anthropic
C
9
200K $$3.00 / $$15.00
GPT-4o Latest OpenAI
C
8
128K $$2.50 / $$10.00
GPT-4.5 Latest OpenAI
S
92
128K $$75.00 / $$150.00
Gemini 3.1 Flash-Lite Latest Google
C
7
1M $$0.25 / $$1.50
Large 3 Latest Mistral
C
8
256K $$0.50 / $$1.50
Gemini 2.5 Flash Latest Google
B
62
1M $$0.30 / $$2.50
Gemini 2.5 Pro Latest Google
C
9
1M (2Mに拡張予定) $$1.25 (≤200Kトークン), $2.50 (>200Kトークン) / $$10.00 (≤200Kトークン), $15.00 (>200Kトークン)

AIエージェント 自律性・性能比較

エンジニアリング適性(SWE-bench)や自律性レベルでエージェントを比較。

エージェント名 開発企業 自律性 SWE-bench 料金 リリース
Devin (Cognition AI) 不明
OpenAI Codex CLI 不明
MultiOn MultiOn 3 to 4 月額固定プランは非公開(リクエスト毎の課金) 2024-06-14
BabyAGI Nakajima 86 N/A (オープンソース) 2023-03-01
AutoGPT SignificantGravitas High 月額$20~$200 (予想) 2023-03-30
Devin Cognition Labs 4 $20/月 (Coreプラン、クレジット購入), $500/月 (Teamプラン) 2024-03-12
Antigravity Google Agents autonomously plan, execute, and verify complex tasks $20-29/月(予想) 2025-11-18

AI関連ニュース