Нейросети: от простого персептрона до LLM

Нейросети: от простого персептрона до LLM | Obasnyem

Нейронные сети существуют с 1950-х годов, но только в 2010-х произошёл прорыв, позволивший создать современный ИИ. История — о сочетании трёх факторов: алгоритмы, данные, вычисления.

Первый персептрон

Фрэнк Розенблатт, 1957. Простейшая "нейронная сеть" — один слой, классифицирует простые объекты. Большие надежды не оправдались — персептрон не мог решать задачу XOR.

AI-зимы

1970-е и 1980-е — период разочарования. Нейросети считались тупиковой ветвью. Финансирование перешло к экспертным системам (правилам "если-то").

Глубокое обучение

1986 — алгоритм обратного распространения ошибки открыт заново (работы Хинтона, Румельхарта). Позволяет обучать многослойные сети.

1998 — LeNet (Ян ЛеКун) использует сверточные нейросети для распознавания рукописных цифр.

ImageNet revolution

2012 — AlexNet Хинтона выигрывает ImageNet с большим отрывом, используя GPU. С этого момента глубокое обучение взрывается.

Трансформеры

2017 — статья "Attention is All You Need". Архитектура трансформеров превосходит рекуррентные сети в NLP. BERT (2018), GPT-2 (2019), GPT-3 (2020) — последовательные прорывы.

Большие языковые модели

GPT-3 (175 млрд параметров) показал emergent abilities — способности, не заложенные явно. GPT-4, Claude, Gemini 1.5 — следующие поколения. Контекст 1M+ токенов, мультимодальность.

Что делает LLM умной

Не единый алгоритм, а комбинация: трансформер + огромный датасет + RLHF (обучение с обратной связью человека) + вычислительные мощности (тысячи GPU за миллионы долларов).

Будущее

Агенты (LLM, выполняющие действия). Мультимодальность. Меньшие, специализированные модели. Робототехника с LLM-мозгом. Синтез знаний из мультимодальных данных.