Мультиязычную нейросеть МГУ для обработки научных текстов внедрили в научные библиотеки
Научная электронная библиотека elibrary.ru открыла для пользователей портала поиск близких по тематике публикаций с применением нейросети SciRus-tiny, разработанной в МГУ для анализа научных текстов в рамках проекта «Математические методы анализа сложных систем», проект «Разработка математических методов машинного обучения для обработки текстовой научной информации большого объема» Междцисциплинарной научно-образовательной школы МГУ. Об этом CNews сообщили представители МГУ.
«Российские ученые теперь могут с помощью нейросетевой модели МГУ пополнять коллекции своих статей. Это оказалось очень удобно, – сказал руководитель междисциплинарной группы проекта, заведующий кафедрой физического факультета МГУ академик Алексей Хохлов. –Традиционно поиск в базах данных научной информации производится путем указания ключевых слов. Количество найденных документов и их состав сильно зависят от того, насколько точно подобраны ключевые слова. Нейросетевой поиск позволяет задать в качестве условия запроса аннотацию, полный текст научной статьи или даже подборки статей по интересующей тематике. Система автоматически подберет документы, максимально близкие по своей тематической направленности».
На портале elibrary.ru такой поиск реализован на странице с описанием публикации (пункт «Найти близкие по тематике публикации» в панели «Инструменты»). Кроме поиска с помощью нейросети, на выбор пользователя предоставляется несколько вариантов поиска — на основе совместного цитирования, просмотра публикаций пользователями и включения в подборки, соавторства и совпадения ключевых слов. Также есть возможность ограничить поиск путем указания периода выпуска научной статьи, типа публикации, ее вхождения в РИНЦ или ядро РИНЦ, а также даты размещения на портале elibrary.ru. Последнее условие удобно использовать для поиска среди свежих поступлений в Научную электронную библиотеку.
«Разработанная в рамках данного проекта модель уже широко используется в Научной электронной библиотеке для решения целого ряда задач, связанных с оценкой тематической близости научных документов. Уже протестирован специалистами полезный сервис для ученых, позволяющий для заданной статьи или подборки статей найти тематически похожие документы как среди всего массива elibrary.ru (более 55 млн научных публикаций), так и только среди новых поступлений, — сказал генеральный директор НЭБ Геннадий Еременко. — Важной для нас особенностью данной модели является ее мультиязычность, поскольку Научная электронная библиотека содержит документы на различных языках. Также тестирование подтвердило высокую эффективность модели, что расширяет круг задач и приложений, где она может быть использована. В стадии разработки — применение нейросети для идентификации авторов в публикациях, тематической классификации научных статей, а также в новом интерфейсе расширенного поиска на elibrary.ru».
В декабре 2023 г. сотрудники лаборатории машинного обучения и семантического анализа Института ИИ МГУ при поддержке портала eLibrary обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny. С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов.