Спецпроекты

Цифровизация ИТ в банках Искусственный интеллект axenix

Российские ученые из T-Bank AI Research и AIRI первыми в мире обучили искусственный интеллект самостоятельно адаптироваться к новым действиям

Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research и Института AIRI разработали первую в мире модель в области контекстного обучения (In-Context Learning), которая умеет самостоятельно обучаться новым действиям всего на нескольких примерах. Об этом CNews сообщили представители «Т-Банка».

Ранее ИИ-системы умели выполнять только фиксированный набор действий, а при появлении новых задач - должны были переобучаться им с нуля. Это требовало дополнительных финансовых и вычислительных ресурсов, чтобы дообучить ИИ для практического применения.

Теперь же открытие российских ученых позволяет создавать ИИ-системы, которые будут самостоятельно адаптироваться под изменения внешней среды и к новым задачам без участия человека. Решение поможет в различных областях: от космических аппаратов до домашних роботов-помощников.

Разработанная российскими учеными модель, названная Headless-AD, умеет выполнять в пять раз больше действий, чем заложено в нее при обучении.

Один из потенциальных сценариев применения такой модели – создание персональных роботов-помощников по дому. Они могут быть обучены на стандартном наборе действий и выполнять одни и те же задачи в каждом доме. Модель Headless-AD, в свою очередь, предполагает возможность адаптации к индивидуальному контексту и особенностям быта, что позволяет домашним роботам без переобучения осваивать новые действия, необходимые для быта каждого отдельного домохозяйства. Другой пример применения модели — адаптация беспилотного автомобиля, который будет способен работать после замены детали, даже если она имеет другой принцип работы. Например, двигатель с более сильной тягой или новая шина.

Суть открытия

Обучение в контексте (In-Context Learning) — это одна из самых перспективных областей в сфере искусственного интеллекта, которая позволяет ИИ-агентам адаптироваться к новым ситуациям без необходимости повторного обучения.

Теоретически ИИ-агенты должны уметь адаптироваться к окружающей среде по четырем компонентам: состояние (State) — это то, что агент видит или знает о текущей ситуации; переход (Transition) — это изменение состояния агента; награда (Reward) — это оценка выполненного агентом действия, может быть положительной или отрицательной; действие (Action) — это доступные агенту способы взаимодействия со средой.

Ранее ИИ-агенты умели адаптироваться по первым трем компонентам. Например, беспилотные автомобили адаптируются к меняющимся погодным условиям (State), скорости движения (Transition) и пунктам назначения (Reward). Последняя из этих компонент — адаптация по действиям (Action) — не была до конца изучена и не использовалась в создании моделей. Агенты умели выполнять только фиксированный набор действий, а при появлении новых — требовали переобучения с нуля.

Ученые из T-Bank AI Research и AIRI решили эту проблему, создав модель Headless-AD, которая научилась адаптироваться к окружающей среде по действиям. Для этого они взяли за основу модель дистилляции алгоритма (Algorithm Distillation, AD), которая ранее являлась самой передовой разработкой в In-Context Learning. Однако ее применение ограничено только тем набором действий, который доступен на этапе обучения.

Headless-AD был создан на основе (AD) с помощью трех модификаций: отказ от конечного линейного слоя, который ранее ограничивал количество и набор доступных действий (отсюда название Headless-AD); кодировка действий случайными векторами — позволяет избежать необходимости дообучения для каждого нового действия, обеспечивая автоматическую адаптацию; внедрение контекста, который позволяет информировать модель о доступных действиях.

Результаты экспериментов

Было проведено несколько экспериментов, сравнивающих Headless-AD и ближайшие аналоги на разных задачах. Например, в модели рекомендательных систем «Контекстуальные бандиты» задача агента — рекомендовать пользователю наиболее подходящие товары. Headless-AD может рекомендовать в пять раз больше товаров по сравнению с тем количеством, которым ее обучали. В то время как модель AD требует переобучения для каждого нового набора товаров и не способна достигать исходного качества при увеличении количества товаров.

При этом адаптация Headless-AD к новым действиям происходит без потери качества. Задача «Многорукие бандиты», где требуется найти оптимальное действие за наименьшее количество попыток, показала, что Headless-AD работает на уровне специализированного алгоритма, созданного конкретно под эту задачу.

Другие эксперименты также подтвердили, что Headless-AD способна к выполнению любой комбинации и количества действий, при этом сохраняя качество их выполнения и не затрачивая дополнительные вычислительные ресурсы. Это делает применение ИИ более быстрым и дешевым.

Короткая ссылка