Спецпроекты

Цифровизация Искусственный интеллект

Российская визуально-языковая модель обошла решения Google, OpenAI, Anthropic и Alibaba в распознавании русскоязычного текста на изображениях

Российская визуально-текстовая модель «Яндекса» Alice AI VLM заняла второе место в лидборде бенчмарка MWS Vision Bench — первого русскоязычного бенчмарка для бизнес-OCR и мультимодальных моделей, ориентированного на реальные бизнес-сценарии. Модель обошла популярные мультимодальные модели — Gemini 2.5 Flash (Google), GPT-4.1 mini (OpenAI), Claude 4.5 Sonnet (Anthropic) и другие, ус. лишь Gemini 2.5 Pro (Google).

Бенчмарк MWS Vision Bench оценивает, как модели анализируют изображения и текст, включая сложные русскоязычные документы, и результаты Alice AI VLM показывают, что российская разработка уже конкурирует с лучшими мировыми решениями. Она хорошо распознает и интерпретирует визуально-текстовую информацию и по качеству превосходит многие мировые мультимодальные решения.

«Результаты MWS Vision Bench подтверждают, что российские модели перешли от экспериментальных наработок к реальной прикладной ценности. Alice AI VLM и другие визуально-языковые модели ускорят автоматизацию документооборота, снизят долю ручной правки и повысят качество данных в бизнес‑процессах. Для компаний это означает более быстрые решения, меньше ошибок и экономию в операционной работе — от банков и страховых компаний до логистики и госуслуг», — сказал Павел Голосов, директор ИОН РАНХиГС.

Ранее «Яндекс» представил новое семейство генеративных моделей для реальных задач Alice AI, куда вошла и новая VLM. Alice AI VLM поддерживает контекст до 32k токенов, использует расширенный набор данных для обучения и обновленный OCR-датасет. Это повышает точность и эффективность при работе с текстом на изображениях.

Короткая ссылка