Claude 4 Opus обгоняет GPT-4 на 15% по математическим бенчмаркам

Независимые тесты BenchmarkLab показали, что Claude 4 Opus от Anthropic существенно превосходит конкурентов в задачах математического рассуждения и программирования.

22 мая 2026, 17:00upd: 26 мая 2026, 13:02src: 25 мин. чтения

#anthropic#claude#бенчмарки#llm#сравнение

Что произошло

Независимая лаборатория BenchmarkLab опубликовала сравнительное исследование топовых языковых моделей по состоянию на Q2 2026 года.

Ключевые результаты

| Модель | MATH-500 | HumanEval | GPQA | |--------|----------|-----------|------| | Claude 4 Opus | **92.4%** | **94.1%** | **78.3%** | | GPT-4.5 | 80.2% | 87.3% | 71.2% | | Gemini Ultra 2 | 85.1% | 89.4% | 74.8% |

Методология

Тесты проводились в режиме "zero-shot" без примеров в контексте. Все модели использовались через официальные API с параметрами по умолчанию.

Слабые стороны

Несмотря на лидерство в математике, Claude 4 Opus уступает GPT-4.5 в задачах обработки длинного контекста (свыше 100K токенов) и мультиязычных задачах на редких языках.

Источники

[2]