Ученые из T-Bank AI Research и AIRI создали датасет для обучения искусственного интеллекта на 100 млрд демонстрационных действий

Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research и института AIRI представили публичный набор данных для контекстного обучения с подкреплением — XLand-100B. Он поможет ученым быстрее и дешевле проводить исследования без привлечения узкопрофильных специалистов и ставить эксперименты на синтетических данных для анализа новых подходов в обучении ИИ. Об этом CNews сообщили представители T-Bank.

Массив данных включает 100 млрд примеров действий ИИ-агента на 30 тыс. задач. Для создания такого датасета потребовалось суммарно около 50 тыс. GPU-часов. Такие вычислительные мощности недоступны большинству академических исследовательских лабораторий.

Контекстное обучение с подкреплением (In-Сontext RL) — одна из наиболее перспективных областей машинного обучения. В этом случае ИИ взаимодействует с окружающей средой, учитывает ее контекст при принятии решений и имеет больше возможностей для адаптации к новым средам, то есть может решать большее количество задач. In-Сontext RL можно использовать для обучения ИИ во всех сферах: от игровой индустрии и здравоохранения до робототехники и промышленности.

Модели в In-Context RL обучаются на массивах данных с демонстрацией правильного решения конкретных задач. Так они узнают принципы поиска решения — и способны переносить их на ранее незнакомые задания.

Существующие наборы данных ограничивали исследования метода In-Context RL из-за своей простоты, структуры или малого количества задач. Кроме того, они часто закрыты для широкого использования, особенно самые подходящие. Все это снижает возможности ученых, работающих над развитием искусственного интеллекта.

Для создания XLand-100B используется предыдущая работа ученых из лаборатории T-Bank AI Research и Института AIRI, где исследователи добились высокой эффективности и скорости в работе со средой XLand-Minigrid. Там производится начальное предобучение агента на 65 тыс. задач с контролем со стороны человека, чтобы вывести на приемлемый уровень качества и возможностей. Далее агентов дообучают еще на 30 тыс. задач уже без указания задачи.

Весь процесс обучения записывается. Впоследствии запись превращается в набор данных. Созданный датасет сохраняет все состояния среды, в которых был агент во время обучения, все его действия и награды. История обучения позволяет производить дальнейшее обучение моделей In-Context RL в нужном формате.

Обзор смартфона VERTU METAVERTU 2: первый тест в России

Короткая ссылка

Ученые из T-Bank AI Research и AIRI создали датасет для обучения искусственного интеллекта на 100 млрд демонстрационных действий

Другие материалы рубрики

MARKET.CNEWS

Dedicated

Онлайн-бухгалтерия

ERP

S3-хранилище

Техника

Обзор книги на цветных электронных чернилах Digma P6: больше, чем просто «читалка»

Обзор беспроводных наушников Baseus Bowie H1i: Hi-Res Audio, 100 часов работы и ANC

Лучшие флагманские TWS-наушники 2025 года: выбор ZOOM

Наука

Найдены следы динозавра возрастом 166 миллионов лет, он был размером с пони

Сталагмиты из древней пещеры показали, что Сахара была оазисом еще 8000 лет назад

Разгадана космическая загадка, почему скопления галактик остаются горячими

Совместимость решений — один из главных вызовов при внедрении заказного ПО

Цифровизация закупок: простая автоматизация
или способ сохранить бизнес в 2025 году

Global ERP:
как отечественная система
заменяет SAP

Совместимость решений — один из главных вызовов при внедрении заказного ПО

Цифровизация закупок: простая автоматизация
или способ сохранить бизнес в 2025 году

Если сотрудники начинают терять важные сообщения, стоит задуматься о внедрении бизнес-платформ

Ученые из T-Bank AI Research и AIRI создали датасет для обучения искусственного интеллекта на 100 млрд демонстрационных действий

Другие материалы рубрики

MARKET.CNEWS

Dedicated

Онлайн-бухгалтерия

ERP

S3-хранилище

Техника

Обзор книги на цветных электронных чернилах Digma P6: больше, чем просто «читалка»

Обзор беспроводных наушников Baseus Bowie H1i: Hi-Res Audio, 100 часов работы и ANC

Лучшие флагманские TWS-наушники 2025 года: выбор ZOOM

Наука

Найдены следы динозавра возрастом 166 миллионов лет, он был размером с пони

Сталагмиты из древней пещеры показали, что Сахара была оазисом еще 8000 лет назад

Разгадана космическая загадка, почему скопления галактик остаются горячими

Совместимость решений — один из главных вызовов при внедрении заказного ПО

Цифровизация закупок: простая автоматизация или способ сохранить бизнес в 2025 году

Global ERP:как отечественная системазаменяет SAP

Совместимость решений — один из главных вызовов при внедрении заказного ПО

Цифровизация закупок: простая автоматизация или способ сохранить бизнес в 2025 году

Если сотрудники начинают терять важные сообщения, стоит задуматься о внедрении бизнес-платформ

Цифровизация закупок: простая автоматизация
или способ сохранить бизнес в 2025 году

Global ERP:
как отечественная система
заменяет SAP

Цифровизация закупок: простая автоматизация
или способ сохранить бизнес в 2025 году