Трансформеры — тип нейронных сетей, представленный в 2017 году. За 6 лет они стали основой почти всех современных ИИ: GPT, Claude, BERT, DALL-E, AlphaFold. Что их так особенными?
До трансформеров
Рекуррентные нейросети (RNN, LSTM) обрабатывали текст последовательно. Одно слово за другим. Это было медленно и плохо работало с длинными зависимостями ("в начале книги герой встретил X, а в конце что произошло?").
Ключевая идея: внимание
Трансформер смотрит на все слова сразу и решает, какие из них связаны. Для каждого слова он вычисляет "вес внимания" к каждому другому слову. Это позволяет строить связи на любом расстоянии.
Механика
Три матрицы для каждого слова: Query (что я ищу), Key (что я есть), Value (что я содержу). Через скалярные произведения вычисляются веса. Математически — перемножения матриц, очень эффективные на GPU.
Многослойность
Трансформер состоит из десятков или сотен слоёв внимания. Каждый слой ловит более абстрактные связи. Первые — синтаксис. Глубокие — семантика, логика.
Масштабирование
Оказалось: чем больше параметров и данных, тем умнее. GPT-2 (1 млрд параметров) — шутка. GPT-3 (175 млрд) — полезна. GPT-4 (сотни миллиардов) — впечатляет. Это пока единственная "модель Вселенной", которая масштабируется так хорошо.
Ограничения
Длина контекста ограничена (хотя быстро растёт). Обучение требует суперкомпьютеров и миллиардов долларов. Галлюцинации остаются проблемой.
Что дальше
Исследователи работают над сжатием (меньше параметров при той же производительности), эффективным вниманием (линейная сложность вместо квадратичной), мультимодальностью (текст+изображения+аудио в одной модели).
Есть вопрос?
Вопросы и ответы · 0
Не поняли что-то?
Зарегистрируйтесь — и сможете задать вопрос автору объяснения.
Загрузка комментариев…