Что такое обучение с подкреплением

Что такое обучение с подкреплением | Obasnyem

Обучение с подкреплением (Reinforcement Learning, RL) — тип машинного обучения, в котором агент учится через взаимодействие со средой, получая награды за правильные действия.

Базовая схема

Агент находится в состоянии s
Выбирает действие a
Среда возвращает новое состояние s' и награду r
Агент обновляет стратегию, чтобы максимизировать сумму будущих наград

Пример

Игра в тетрис. Агент видит поле (состояние), выбирает куда поставить фигуру (действие), получает очки за заполненные ряды (награда). Учится методом проб и ошибок.

Ключевые алгоритмы

Q-learning: агент учит функцию Q(s,a) — ожидаемую награду за действие a в состоянии s
Deep Q-Networks (DQN): Q-функция аппроксимируется нейросетью
Policy gradient: напрямую обучается политика (вероятности действий)
Actor-critic: комбинирует подход: актёр выбирает действия, критик оценивает

Великие успехи

AlphaGo (2016): победил чемпиона мира в го
AlphaZero (2017): одна архитектура научилась играть в шахматы, го, сёги за часы
DotA 2 OpenAI Five: команда ИИ победила профессиональных игроков
Управление роботами: Boston Dynamics использует RL

RLHF

Reinforcement Learning from Human Feedback — используется в обучении ChatGPT. Модель генерирует ответы, люди их оценивают, модель учится давать предпочитаемые человеком ответы.

Проблемы

Требует миллионов взаимодействий — сложно для реальных задач
"Reward hacking" — агент находит неожиданные способы получить награду, не решая задачу
Перенос между задачами — часто плохой

Применения

Игры, робототехника, автопилоты, рекомендательные системы, биржевая торговля, управление энергосетями.