Архитектура GPT-5 раскрыта: мультимодальность и 2T параметров
Исследователи OpenAI опубликовали технический отчёт о новой архитектуре GPT-5, включающей нативную мультимодальность и принципиально новый подход к масштабированию.
Что произошло
OpenAI опубликовала технический отчёт о GPT-5, раскрывший детали архитектуры следующего поколения языковых моделей.
Ключевые технические детали
Модель построена на принципиально новой архитектуре **Mixture of Experts (MoE)**, где каждый токен обрабатывается только частью параметров модели. Это позволяет масштабировать общее число параметров до 2 триллионов при разумных требованиях к вычислительным ресурсам во время инференса.
Нативная мультимодальность
В отличие от предыдущих версий, GPT-5 обучалась на текстовых, визуальных и аудио данных одновременно с самого начала. Это означает, что модель не просто "прикреплена" к визуальному энкодеру, а изначально понимает мультимодальный контекст.
Производительность
По данным OpenAI, GPT-5 превосходит GPT-4 на 40% по бенчмаркам MMLU и демонстрирует качественный скачок в рассуждениях о пространственных отношениях и физических системах.
Конкуренты, включая Google DeepMind и Anthropic, воздерживаются от комментариев, хотя отраслевые наблюдатели ожидают ответных публикаций в ближайшие месяцы.