Что такое трансформеры: нейросеть внутри ChatGPT

Трансформеры — тип нейронных сетей, представленный в 2017 году. За 6 лет они стали основой почти всех современных ИИ: GPT, Claude, BERT, DALL-E, AlphaFold. Что их так особенными?

До трансформеров

Рекуррентные нейросети (RNN, LSTM) обрабатывали текст последовательно. Одно слово за другим. Это было медленно и плохо работало с длинными зависимостями ("в начале книги герой встретил X, а в конце что произошло?").

Ключевая идея: внимание

Трансформер смотрит на все слова сразу и решает, какие из них связаны. Для каждого слова он вычисляет "вес внимания" к каждому другому слову. Это позволяет строить связи на любом расстоянии.

Механика

Три матрицы для каждого слова: Query (что я ищу), Key (что я есть), Value (что я содержу). Через скалярные произведения вычисляются веса. Математически — перемножения матриц, очень эффективные на GPU.

Многослойность

Трансформер состоит из десятков или сотен слоёв внимания. Каждый слой ловит более абстрактные связи. Первые — синтаксис. Глубокие — семантика, логика.

Масштабирование

Оказалось: чем больше параметров и данных, тем умнее. GPT-2 (1 млрд параметров) — шутка. GPT-3 (175 млрд) — полезна. GPT-4 (сотни миллиардов) — впечатляет. Это пока единственная "модель Вселенной", которая масштабируется так хорошо.

Ограничения

Длина контекста ограничена (хотя быстро растёт). Обучение требует суперкомпьютеров и миллиардов долларов. Галлюцинации остаются проблемой.

Что дальше

Исследователи работают над сжатием (меньше параметров при той же производительности), эффективным вниманием (линейная сложность вместо квадратичной), мультимодальностью (текст+изображения+аудио в одной модели).