Спецпроекты

ПО Цифровизация Техника Искусственный интеллект

Модели ИИ будут обучать по-новому, и это может «приземлить» Nvidia

Эксперты пришли к выводу, что текущие методы обучения масштабных лингвистических моделей достигли предела своей продуктивности, и необходимо пересматривать подходы. Это может означать и большое переформатирование рынка оборудования.

Вышли на плато

Методика обучения искусственного интеллекта на основе все больших объемов данных перестала приносить ожидаемые результаты: если до недавнего времени эффективность масштабных языковых моделей росла прямо пропорционально размерам данных, на которых те обучались, то с определенного момента рост прекратился, пишет агентство Reuters, ссылаясь на мнение десятка экспертов в этой области.

Среди них – сооснователь OpenAI и AI labs Safe Superintelligence (SSI) Илья Суцкевер. По его словам, рост объемов информации на этапе предобучения – той фазы, когда ИИ обучается языковым комбинациям и структурам на основе неразмеченных данных, – перестал обеспечивать прирост результативности: она остается прежней, сколько бы разработчики ни старались повысить эрудированность ИИ.

«2010-е были эпохой масштабирования, а теперь мы снова в эпохе открытий чудных: все ищут что-то новое, – говорит Суцкевер. – Сейчас важнее всего масштабировать нечто самое существенное». Ученый уклонился от ответа на вопрос, что именно он считает самым существенным, отметив лишь, что его новая компания SSI работает над альтернативой к масштабированию предобучающих массивов данных.

Подходы к текущим методам обучения масштабных лингвистических моделей достигли предела своей продуктивности и будут пересматриваться

Разработчики технологий искусственного интеллекта, такие как OpenAI, также начали искать способы преодолеть возникшие ограничения и заставить машину «думать» в большей степени «по-человечески». Компания OpenAI, в частности, представила новую модель o1, которая, как пишет Reuters, может спровоцировать «гонку вооружений» среди поставщиков аппаратных компонентов и вызвать неудержимый рост спроса на энергию.

Уже сегодня обучение крупномасштабных моделей может обходиться в десятки миллионов долларов и требовать одновременной работы сотен процессоров. Сложность системы делает ее особенно уязвимой перед аппаратным сбоем. А кроме того, исследователи не имеют возможности оценить производительность готовой модели до самого конца процесса обучения, – который может занимать месяцы. Плюс к этому, нынешние модели уже вычерпали весь объем легко доступных данных в мире, а энергоемкость обучения – колоссальна.

Мы пойдем другим путем

Чтобы как-то с этим справиться, исследователи начинают все чаще применять другую методику: «test-time compute» или «вычисления в процессе тестирования». В этом случае, модель совершенствуется на инференциальном этапе (то есть в процессе активного применения): вместо того, чтобы сразу давать один ответ, модель генерирует несколько «конкурирующих» и выбирает оптимальный. Эта методика позволяет моделям выделять больше вычислительных ресурсов на сложные задачи, такие как математические вычисления или проблемы программирования, которые требуют способности рассуждать и принимать решения «по-человечески».

«Как выясняется, если дать боту 20 секунд подумать над комбинацией в покер, это приносит такие же результаты, как масштабирование обучающей модели в 100 тыс. раз и обучение на ее основе в течение в 100 тыс. раз большего времени», – утверждает Ноам Браун (Noam Brown), исследователь OpenAI, который участвовал в разработке модели o1.

Эта модель (ранее известная как Q* и Strawberry), способна «обдумывать» проблемы поэтапно, аналогично тому, как делает умозаключения человек. Подготовка модели включает использование данных и обратной связи от ученых и отраслевых экспертов. Как пишет Reuters, «тайным ингредиентом» является набор дополнительных процедур обучения «поверх» базовых моделей вроде GPT-4. Эта методика будет потом опробована и на более масштабных базовых моделях.

Другие вендорыAnthropic, xAI и Google DeepMind, – по свидетельствам инсайдеров, работают над своими вариантами той же методики. И это может привести к изменению всего ландшафта, связанного с производством оборудования для ИИ. Сейчас на нем наблюдается запредельный спрос на процессоры Nvidia. Венчурные инвесторы уже вложили миллиарды в дорогостоящую разработку ИИ-моделей.

Но теперь все идет к тому, что гигантские кластеры предобучения уступят место инференциальным облакам – распределенным специализированным серверам. А значит, доминирование Nvidia может значительно поколебаться. Хотя в самой компании наблюдают пока лишь рост спроса на оборудование для инференциальных ресурсов.

«Развитие ИИ идет такими темпами, что все может меняться абсолютно непредсказуемо и одномоментно: еще три года назад про OpenAI, например, никто не слышал, сегодня они – «законодатели мод», завтра-послезавтра какой-нибудь стартап переформатирует рынок до неузнаваемости, – считает Дмитрий Гвоздев, генеральный директор компании «Информационные технологии будущего». – Соответственно будут меняться и запросы к аппаратной базе, и Nvidia может оказаться примерно в том же положении, в каком сегодня находится IBM или Intel. Что-то уверенно прогнозировать можно только на очень непродолжительный срок».

Роман Георгиев

Короткая ссылка