Обучение с подкреплением (Reinforcement Learning, RL) — тип машинного обучения, в котором агент учится через взаимодействие со средой, получая награды за правильные действия.
Базовая схема
- Агент находится в состоянии s
- Выбирает действие a
- Среда возвращает новое состояние s' и награду r
- Агент обновляет стратегию, чтобы максимизировать сумму будущих наград
Пример
Игра в тетрис. Агент видит поле (состояние), выбирает куда поставить фигуру (действие), получает очки за заполненные ряды (награда). Учится методом проб и ошибок.
Ключевые алгоритмы
- Q-learning: агент учит функцию Q(s,a) — ожидаемую награду за действие a в состоянии s
- Deep Q-Networks (DQN): Q-функция аппроксимируется нейросетью
- Policy gradient: напрямую обучается политика (вероятности действий)
- Actor-critic: комбинирует подход: актёр выбирает действия, критик оценивает
Великие успехи
- AlphaGo (2016): победил чемпиона мира в го
- AlphaZero (2017): одна архитектура научилась играть в шахматы, го, сёги за часы
- DotA 2 OpenAI Five: команда ИИ победила профессиональных игроков
- Управление роботами: Boston Dynamics использует RL
RLHF
Reinforcement Learning from Human Feedback — используется в обучении ChatGPT. Модель генерирует ответы, люди их оценивают, модель учится давать предпочитаемые человеком ответы.
Проблемы
- Требует миллионов взаимодействий — сложно для реальных задач
- "Reward hacking" — агент находит неожиданные способы получить награду, не решая задачу
- Перенос между задачами — часто плохой
Применения
Игры, робототехника, автопилоты, рекомендательные системы, биржевая торговля, управление энергосетями.
Есть вопрос?
Вопросы и ответы · 0
Не поняли что-то?
Зарегистрируйтесь — и сможете задать вопрос автору объяснения.
Загрузка комментариев…