比较 AI 聊天模型

模型 输出速度 (Token/sec) 人工智能分析质量指数 推理与知识 (MMLU) 科学推理与知识 (GPQA) 定量推理 (MATH) 编码 (HumanEval) 数学 (MGSM)
ChatGPT v3.5 83 53 68 30 39 69 52
ChatGPT 4o Mini 145 71.4 82 43 75 86 87
ChatGPT 4o 95 77 89 51 78 90 90
ChatGPT v4 Plus 95 77 89 51 78 90 90
ChatGPT o1 Mini (beta) 73 81.6 85 58 90 93 90
Gemini 1.5 Pro 61 80 86 61 85 87 76
Gemini 1.5 Flash 204 73 81 50 79 84 76
Claude V3.5 Haiku 64 69 81 37 73 85 71
Claude V3 Sonnet 54 57 77 37 46 69 84
Claude V3.5 Sonnet 59 80 89 58 79 93 92
Jamba 1.5 Mini 164 46 63 26 32 61 30
Jamba 1.5 Large 57 64 80 41 60 74 74
Llama 3.2 11B 117 54 72 26 50 67 67
Llama 3.2 90B 40 66 83 43 61 75 83
Llama 3.1 405B (Large) 28 72 87 50 69 82 83
Mistral 7B Instruct 108 24 34 19 14 31 23
Mistral 8X7B Instruct 86 42 63 30 33 41 30
Mistral Large 2 37 73 85 48 72 87 87
xAI Grok 57 70 85 43 69 85 -