AIHub

AIモデル性能比較マトリクス

最新モデルから過去のモデルまで。ユースケースに合わせて最適なモデルを選定できます。

モデル名	ステータス	開発企業	MMLU (一般)	HumanEval	文脈	API 1M ($)
Google Gemini 2.0 Flash	Latest	—	—	C 7	100万トークン	—
Meta Llama 4 Maverick	Latest	—	—	C 8	512,000トークン	—
Mistral Large 3	Latest	—	—	C 8	256,000トークン	—
Anthropic Claude 3.5 Sonnet	Latest	—	—	C 10	200,000トークン	—
Claude Sonnet 4.6	Latest	—	—	C 9	1Mトークン	—
OpenAI o3	Latest	—	—	C 9	不明	—
OpenAI GPT-4o	Latest	—	—	C 7	128Kトークン	—
OpenAI GPT-4.1	Latest	—	—	C 9	100万トークン	—
Gemini 2.0 Flash	Latest	—	—	C 7	1Mトークン (入力), 8Kトークン (出力)	—
Google Gemini 2.5 Flash	Latest	—	—	C 8	1,048,576トークン	—
Google Gemini 2.5 Pro	Latest	—	—	C 9	100万トークン (200万トークンに拡張予定)	—
Llama 4 Maverick	Latest	Meta	S 96	C 9	128k tokens	$N/A / $N/A
GPT-5.4	Latest	OpenAI	S 100	S 87	300k tokens	$$5.00/1M / $$20.00/1M
Claude 3.7 Sonnet	Latest	Anthropic	S 98	B 70	200k tokens	$$3.00/1M / $$15.00/1M
Claude 3.5 Sonnet	Latest	Anthropic	—	C 9	200K	$$3.00 / $$15.00
GPT-4o	Latest	OpenAI	—	C 8	128K	$$2.50 / $$10.00
GPT-4.5	Latest	OpenAI	—	S 92	128K	$$75.00 / $$150.00
Gemini 3.1 Flash-Lite	Latest	Google	—	C 7	1M	$$0.25 / $$1.50
Large 3	Latest	Mistral	—	C 8	256K	$$0.50 / $$1.50
Gemini 2.5 Flash	Latest	Google	—	B 62	1M	$$0.30 / $$2.50
Gemini 2.5 Pro	Latest	Google	—	C 9	1M (2Mに拡張予定)	$$1.25 (≤200Kトークン), $2.50 (>200Kトークン) / $$10.00 (≤200Kトークン), $15.00 (>200Kトークン)

エンジニアリング適性（SWE-bench）や自律性レベルでエージェントを比較。

エージェント名	開発企業	自律性	SWE-bench	料金	リリース
Devin (Cognition AI)	—	不明	—	—	—
OpenAI Codex CLI	—	不明	—	—	—
MultiOn	MultiOn	3 to 4	—	月額固定プランは非公開（リクエスト毎の課金）	2024-06-14
BabyAGI	Nakajima	86	—	N/A (オープンソース)	2023-03-01
AutoGPT	SignificantGravitas	High	—	月額$20～$200 (予想)	2023-03-30
Devin	Cognition Labs	4	—	$20/月 (Coreプラン、クレジット購入), $500/月 (Teamプラン)	2024-03-12
Antigravity	Google	Agents autonomously plan, execute, and verify complex tasks	—	$20-29/月(予想)	2025-11-18