Архитектура GPT-5 раскрыта: мультимодальность и 2T параметров

Исследователи OpenAI опубликовали технический отчёт о новой архитектуре GPT-5, включающей нативную мультимодальность и принципиально новый подход к масштабированию.

24 мая 2026, 12:00upd: 26 мая 2026, 13:02src: 28 мин. чтения

#openai#gpt-5#llm#архитектура#мультимодальность

Что произошло

OpenAI опубликовала технический отчёт о GPT-5, раскрывший детали архитектуры следующего поколения языковых моделей.

Ключевые технические детали

Модель построена на принципиально новой архитектуре **Mixture of Experts (MoE)**, где каждый токен обрабатывается только частью параметров модели. Это позволяет масштабировать общее число параметров до 2 триллионов при разумных требованиях к вычислительным ресурсам во время инференса.

Нативная мультимодальность

В отличие от предыдущих версий, GPT-5 обучалась на текстовых, визуальных и аудио данных одновременно с самого начала. Это означает, что модель не просто "прикреплена" к визуальному энкодеру, а изначально понимает мультимодальный контекст.

Производительность

По данным OpenAI, GPT-5 превосходит GPT-4 на 40% по бенчмаркам MMLU и демонстрирует качественный скачок в рассуждениях о пространственных отношениях и физических системах.

Конкуренты, включая Google DeepMind и Anthropic, воздерживаются от комментариев, хотя отраслевые наблюдатели ожидают ответных публикаций в ближайшие месяцы.

Источники

[2]