31 Мая 2024 11:13 31 Мая 2024 11:13 |

Большие языковые модели можно оптимизировать до 15% без потери качества

Ученые Сбербанка, лаборатории Fusion Brain Института AIRI и «Сколтеха» обнаружили принципиально новое свойство больших языковых моделей и научились контролировать его. Это позволит оптимизировать модели-трансформеры на 10–15% без потери в качестве, экономя вычислительные мощности. Об этом CNews сообщили представители Сбербанка.

Модели с трансформерной архитектурой лежат в основе диалоговых ботов. В таких моделях множество слоёв: от входа (например, запроса «Нарисуй кота») информация доходит до выхода и преобразуется в картинку. Принято считать, что линейность слоев –– свойство самых слабых моделей, а нелинейность — сильных, то есть тех же самых трансформеров. Линейность обеспечивает простоту и эффективность в вычислениях, но при этом модель не может решать сложные задачи, такие как выучивать необычные закономерности в данных.

Исследователи изучили устройство 20 известных open source языковых моделей по типу декодера и выяснили, что между эмбеддингами (числовые представления данных) есть высокая линейная зависимость. Соответственно, при переходе от слоя к слою информация не претерпевает нелинейных преобразований, и сложную архитектуру трансформера можно заменить намного более лёгкими слоями нейросети.

Чтобы избежать проявления негативных свойств линейности во время предобучения и улучшить метрики качества модели, специалисты разработали специальный регуляризатор. Это позволило заменить сложные блоки слоёв модели на более простые. В ходе экспериментов выяснилось, что облегчать без потери качества можно от 10 до 15% слоев.

Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка: «Одним из вызовов развития ИИ-технологий, в особенности больших языковых моделей (представителей ветки GenAI), остаётся потребность в вычислительных ресурсах для обучения следующего поколения SOTA-моделей. В основе большинства архитектур GenAI лежат блоки трансформеров, и в опубликованной работе выявлена линейность в некоторых представлениях данных внутри этих блоков. Как следствие, это позволяет существенно оптимизировать архитектуры с точки зрения вычислительных мощностей, снизить нагрузку, получить результат за меньшее время за счет адаптивной регуляризации. Потенциал сокращения вычислительных ресурсов на обучении оценивается в порядке до 10%. Мы, в Сбере, планируем провести тестирование рассмотренной идеи и в случае успеха — тиражировать ее на флагманские модели GenAI. Поиск таких смекалок в AI-архитектурах позволяет частично компенсировать вычислительный голод, поэтому продолжим поддержку таких исследований в направлении обучения больших моделей».

Иван Оселедец, д. ф.-м. н., СЕО Института AIRI, профессор «Сколтеха»: «Нам удалось изучить модели под микроскопом, простыми средствами описать сложные процессы внутри трансформеров и сразу предложить эффективный регуляризатор. Мы уже все проверили на маленьких моделях, проверки на больших моделях и обучении — впереди. Обнаруженный эффект кажется очень контринтуитивным, он противоречит многим представлениям о глубоком обучении. В то же время именно он позволяет тратить меньше вычислительных ресурсов на развёртку и инференс больших языковых моделей. На днях мы выложили препринт статьи, а она уже обогнала публикации от Google, Microsoft, MIT и Adobe в списке статей дня на HuggingFace. Понимая важность работы для научного сообщества, мы поделились регуляризатором с коллегами и опубликовали его в открытом доступе».

Как сопровождать СУБД на множестве серверов баз данных

Короткая ссылка

Большие языковые модели можно оптимизировать до 15% без потери качества

Другие материалы рубрики

MARKET.CNEWS

S3-хранилище

Онлайн-бухгалтерия

Colocation

IaaS

Техника

Обзор беспроводных наушников Baseus Bowie H1i: Hi-Res Audio, 100 часов работы и ANC

Лучшие флагманские TWS-наушники 2025 года: выбор ZOOM

Самые умные зубные щетки в 2025 году: хиты продаж

Наука

Найдены следы динозавра возрастом 166 миллионов лет, он был размером с пони

Сталагмиты из древней пещеры показали, что Сахара была оазисом еще 8000 лет назад

Разгадана космическая загадка, почему скопления галактик остаются горячими

Global ERP:
как отечественная система
заменяет SAP

Если сотрудники начинают терять важные сообщения, стоит задуматься о внедрении бизнес-платформ

Global ERP:
как отечественная система
заменяет SAP

Если сотрудники начинают терять важные сообщения, стоит задуматься о внедрении бизнес-платформ

Цифровизация закупок: простая автоматизация
или способ сохранить бизнес в 2025 году

Совместимость решений — один из главных вызовов при внедрении заказного ПО

Большие языковые модели можно оптимизировать до 15% без потери качества

Другие материалы рубрики

MARKET.CNEWS

S3-хранилище

Онлайн-бухгалтерия

Colocation

IaaS

Техника

Обзор беспроводных наушников Baseus Bowie H1i: Hi-Res Audio, 100 часов работы и ANC

Лучшие флагманские TWS-наушники 2025 года: выбор ZOOM

Самые умные зубные щетки в 2025 году: хиты продаж

Наука

Найдены следы динозавра возрастом 166 миллионов лет, он был размером с пони

Сталагмиты из древней пещеры показали, что Сахара была оазисом еще 8000 лет назад

Разгадана космическая загадка, почему скопления галактик остаются горячими

Global ERP:как отечественная системазаменяет SAP

Если сотрудники начинают терять важные сообщения, стоит задуматься о внедрении бизнес-платформ

Global ERP:как отечественная системазаменяет SAP

Если сотрудники начинают терять важные сообщения, стоит задуматься о внедрении бизнес-платформ

Цифровизация закупок: простая автоматизация или способ сохранить бизнес в 2025 году

Совместимость решений — один из главных вызовов при внедрении заказного ПО

Global ERP:
как отечественная система
заменяет SAP

Global ERP:
как отечественная система
заменяет SAP

Цифровизация закупок: простая автоматизация
или способ сохранить бизнес в 2025 году