Эта работа была опубликована 16 декабря 2019 года в журнале Nature Communications. Название статьи: «Сложность задачи взаимодействует с неопределенностью в пространстве состояний в арбитраже между обучением на основе моделей и без моделей»."
Обучение с подкреплением человека по своей сути является сложным и динамичным процессом, включающим постановку целей, выбор стратегии, выбор действий, модификацию стратегии, распределение когнитивных ресурсов и т. Д. Это очень сложная проблема для людей из-за быстро меняющейся и многогранной среды, в которой людям приходится работать. Что еще хуже, людям часто нужно быстро принимать важные решения еще до того, как получить возможность собрать большой объем информации, в отличие от случая использования методов глубокого обучения для моделирования обучения и принятия решений в приложениях искусственного интеллекта.
Чтобы решить эту проблему, исследовательская группа использовала технику, называемую «планирование эксперимента на основе теории обучения с подкреплением», для оптимизации трех переменных двухэтапной марковской задачи принятия решения – цели, сложности задачи и неопределенности задачи. Этот метод экспериментального проектирования позволил команде не только контролировать мешающие факторы, но и создать ситуацию, аналогичную той, которая возникает при решении реальных человеческих проблем.
Во-вторых, команда использовала технику под названием «нейровизуализационный анализ на основе моделей».’Основываясь на приобретенном поведении и данных фМРТ, более 100 различных типов алгоритмов обучения с мета подкреплением были сопоставлены друг с другом, чтобы найти вычислительную модель, которая может объяснить как поведенческие, так и нейронные данные. В-третьих, для более тщательной проверки команда применила аналитический метод, называемый «анализ восстановления параметров», который включает высокоточное поведенческое профилирование как людей, так и вычислительных моделей.
Таким образом, команда смогла точно определить вычислительную модель обучения с мета-подкреплением, гарантируя не только то, что внешнее поведение модели похоже на поведение человека, но также и то, что модель решает проблему так же, как это делают люди.
Команда обнаружила, что люди склонны увеличивать обучение с подкреплением на основе планирования (так называемое управление на основе моделей) в ответ на возрастающую сложность задачи.
Однако они прибегли к более простой и ресурсосберегающей стратегии, называемой безмодельным управлением, когда как неопределенность, так и сложность задачи были высокими. Это говорит о том, что как неопределенность задачи, так и сложность задачи взаимодействуют во время мета-контроля обучения с подкреплением.
Вычислительный анализ фМРТ показал, что сложность задачи взаимодействует с нейронными представлениями о надежности стратегий обучения в нижней префронтальной коре.
Эти результаты значительно продвигают понимание природы вычислений, выполняемых в нижней префронтальной коре во время обучения с мета подкреплением, а также дают понимание более общего вопроса о том, как мозг решает неопределенность и сложность в динамически меняющейся среде.
Определение ключевых вычислительных переменных, которые управляют обучением префронтальным мета подкреплением, также может дать понимание того, как этот процесс может быть уязвим для срыва при определенных психических расстройствах, таких как депрессия и ОКР. Кроме того, понимание того, как этот процесс может иногда приводить к усилению контроля без модели, может дать понимание того, как в некоторых ситуациях выполнение задачи может нарушаться в условиях высокой когнитивной нагрузки.
Профессор Ли сказал: «Это исследование будет представлять огромный интерес для исследователей как в области искусственного интеллекта, так и в области взаимодействия человека и компьютера, поскольку оно имеет значительный потенциал для применения основных идей, полученных в отношении того, как человеческий интеллект работает с алгоритмами искусственного интеллекта."
Эта работа финансировалась Национальным институтом злоупотребления наркотиками, Национальным исследовательским фондом Кореи, Министерством науки и ИКТ, Центром финансирования исследований Samsung компании Samsung Electronics.
