Нейронные сети существуют с 1950-х годов, но только в 2010-х произошёл прорыв, позволивший создать современный ИИ. История — о сочетании трёх факторов: алгоритмы, данные, вычисления.
Первый персептрон
Фрэнк Розенблатт, 1957. Простейшая "нейронная сеть" — один слой, классифицирует простые объекты. Большие надежды не оправдались — персептрон не мог решать задачу XOR.
AI-зимы
1970-е и 1980-е — период разочарования. Нейросети считались тупиковой ветвью. Финансирование перешло к экспертным системам (правилам "если-то").
Глубокое обучение
1986 — алгоритм обратного распространения ошибки открыт заново (работы Хинтона, Румельхарта). Позволяет обучать многослойные сети.
1998 — LeNet (Ян ЛеКун) использует сверточные нейросети для распознавания рукописных цифр.
ImageNet revolution
2012 — AlexNet Хинтона выигрывает ImageNet с большим отрывом, используя GPU. С этого момента глубокое обучение взрывается.
Трансформеры
2017 — статья "Attention is All You Need". Архитектура трансформеров превосходит рекуррентные сети в NLP. BERT (2018), GPT-2 (2019), GPT-3 (2020) — последовательные прорывы.
Большие языковые модели
GPT-3 (175 млрд параметров) показал emergent abilities — способности, не заложенные явно. GPT-4, Claude, Gemini 1.5 — следующие поколения. Контекст 1M+ токенов, мультимодальность.
Что делает LLM умной
Не единый алгоритм, а комбинация: трансформер + огромный датасет + RLHF (обучение с обратной связью человека) + вычислительные мощности (тысячи GPU за миллионы долларов).
Будущее
Агенты (LLM, выполняющие действия). Мультимодальность. Меньшие, специализированные модели. Робототехника с LLM-мозгом. Синтез знаний из мультимодальных данных.
Есть вопрос?
Вопросы и ответы · 0
Не поняли что-то?
Зарегистрируйтесь — и сможете задать вопрос автору объяснения.
Загрузка комментариев…