Иван Волков, Content AI: На ИТ-рынке появился новый тренд — кросс-платформенные продукты для разных ОС
Компания Content AI выпустила кросс-платформенную версию своего флагманского продукта ContentCapture. Это универсальное решение для интеллектуальной обработки информации, которое теперь может быть использовано как на Windows, так и на Linux. Как компания адаптируется к новым реалиям российского ИТ-рынка и насколько высоко оценивает перспективы тренда линуксовизации, рассказывает технический директор Content AI Иван Волков.
«Сегодня переход на Linux — общий тренд в бизнесе»
CNews: Content AI в числе своих главных приоритетов в настоящее время называет выпуск продуктов, адаптированных для работы на Linux. В ноябре 2023 года компания выпустила кросс-платформенную версию решения для интеллектуальной обработки информации ContentCapture. Расскажите, как велась работа над этим релизом?
Иван Волков: Сегодня переход на Linux — общий тренд в бизнесе. Компании с госучастием или из финансового сектора активно мигрируют на отечественные операционные системы. Бизнес смотрит на Linux, потому что он позволяет снизить различные риски, связанные с отказом западных компаний от обслуживания клиентов из России и прекращением выпуска обновлений. Такое положение формирует приоритеты многих вендоров, в том числе наши. Именно поэтому в течение последнего года мы решали задачи портирования своих решений на Linux, причем с полным сохранением их функциональности.
Для ContentCapture это был серьезный вызов, поскольку у нас очень развитый и сложный продукт, который до этого мог работать только на операционных системах семейства Windows. Задача его перевода на другой стек для добавления поддержки Linux была нетривиальной и весьма объемной: нужно было решить множество необычных вопросов, с которыми мы ранее не сталкивались, да и просто написать много кода. Но благодаря профессионализму команды разработки нам удалось с этим успешно справиться. В ноябре 2023 года мы выпустили первую кросс-платформенную версию ContentCapture, которая может быть использована как на Windows, так и на Linux.
Часть компонентов была переписана с нуля с учетом требований кросс-платформенности, часть адаптирована для работы на Linux. Результат нашей работы поставляется в виде набора Docker-контейнеров. Мы выбрали этот способ, чтобы предоставить пользователям гибкие варианты запуска продукта, а также получить независимость от особенностей конкретных дистрибутивов Linux. В целом контейнеризация позволяет гарантировать качественную предсказуемую работу наших компонентов на любом дистрибутиве Linux.
CNews: Раскройте понятие кросс-платформенности. Сейчас этот термин трактуют по-разному.
Иван Волков: Действительно, мы сталкиваемся с тем, что клиенты, говоря о кросс-платформенности, подразумевают разные вещи. С позиций разработки кросс-платформенность — это, когда продукт собирается из одних и тех же исходников для разных платформ, благодаря чему функциональные возможности не зависят от операционных систем. Мы как раз идем по такому пути. При этом другие клиенты под кросс-платформенностью понимают возможность взаимодействия из-под Windows с Linux или наоборот. Такая возможность тоже есть у нашего решения. Так, например, клиентские станции ContentCapture на первом этапе перехода на Linux можно оставить на Windows, а серверную часть продукта перевести на Linux. Это значительно упрощает процесс миграции.
Вообще кросс-платформенность — большое достижение для ContentCapture. Когда начинаешь разрабатывать приложение с нуля, сразу используя кросс-платформенный стек, это свойство дается сравнительно дешево и легко. В нашем случае, когда портируемое приложение сложное, трудозатраты высоки. В этом смысле для ContentCapture это важный шаг, потому что продукт изначально создавался только для Windows, и перенос на Linux стал результатом серьезной работы.
«Мы работаем над тем, чтобы решение стало более простым в эксплуатации»
CNews: ContentCapture — инструмент для автоматизации процессов работы с документами. Он замещает ряд решений западных вендоров. Соответствует ли ваш продукт в функциональности иностранным аналогам? Какие пути для его развития вы видите?
Иван Волков: ContentCapture имеет большую историю, так как его «прародителем» является FlexiCapture — одна из самых известных в мировом масштабе платформ для интеллектуальной обработки документов. Но наше решение активно развивается по собственным сценариям и по ряду функциональных характеристик уже превосходит свой зарубежный аналог.
Планы по развитию продукта не ограничиваются его портированием на Linux. Мы работаем над тем, чтобы решение стало более простым в эксплуатации и хотим снизить порог входа в него. Для этого наметили ряд улучшений, например, внедрение технологии добавления типов документов через разметку. Также планируем сделать все функциональные возможности доступными через браузер, что избавит заказчиков от необходимости устанавливать приложения. Кроме того, появится удобный no-code редактор процесса обработки документов.
Развиваются и технологии распознавания, на которых основано решение. Летом 2023 года мы выпустили версию ContentCapture с поддержкой распознавания русского рукописного текста. Новые технологии на основе нейросетей позволяют продукту понимать документы с рукописными элементами с высокой точностью. Для улучшения распознавания мы проводили тесты на детских сочинениях. Даже взрослый человек не всегда может прочесть почерк ребенка, но программа выполняет эту задачу хорошо.
В ближайшем будущем у нас запланированы улучшения в качестве распознавания документов, удостоверяющих личность, например, паспортов, свидетельств о рождении. Мы уже умеем обрабатывать такие документы и видим возможность поднять качество распознавания еще выше.
Я рассказал о линейных улучшениях, но запланированы и прорывные вещи. Например, мы рассчитываем улучшить качество технологии обработки естественного языка (NLP), которая позволяет извлекать информацию из неструктурированного текста. Наглядный пример: у вас есть многостраничный документ, который выглядит как простыня текста, и вам нужно извлечь из него определенные факты. NLP позволяет это сделать.
Это технология уже представлена в наших продуктах, но сейчас для ее применения требуется или создавать специальные лингвистические модели, или размечать большое количество документов, или же вручную выстраивать каскады правил анализа документа для извлечения сущностей. Несмотря на то, что эти способы позволяют решать задачу, каждый имеет свои слабые и сильные стороны. Мы же видим, как применить последние достижения в области машинного обучения, чтобы создать новый механизм, объединяющий преимущества предыдущих: простоту, отсутствие необходимости размечать документы и высокое качество извлечения.
«Linux по умолчанию станет основой для ИТ-инфраструктуры отечественных компаний»
CNews: Адаптированы ли остальные продукты Content AI для Linux?
Иван Волков: Да, практически весь софт в нашей линейке поддерживает Linux, в том числе еще один наш флагманский продукт — многофункциональный редактор ContentReader PDF, который замещает на российском рынке Adobe Acrobat и FineReader PDF. Сейчас мы работаем над новой версией ContentReader PDF, которая будет выполнена на другом стеке технологий, позволяющем сделать продукт еще более удобным в использовании, особенно на Linux. Кроме того, еще в 2022 году мы выпустили Linux-версию решения для интеллектуального корпоративного поиска Content AI Intelligent Search.
CNews: Сегодня выпуск продуктов, совместимых с отечественными операционными системами, является практически обязательным для вендоров, которые планируют сотрудничество с крупным бизнесом, государственными структурами. Как, по-вашему, тренд линуксовизации — это временная мера? Или мы имеем дело с долгосрочной стратегией?
Иван Волков: Текущий тренд обусловлен комбинацией факторов. С одной стороны — это попытка продолжить работу в условиях, когда западные компании ушли из России. С другой — желание снизить риски, которые возникли для бизнеса при использовании иностранных решений. Данный тренд неизбежно приведет к тому, что Linux постепенно по умолчанию станет основой для ИТ-инфраструктуры отечественных компаний. Появится больше поддерживающих Linux приложений, произойдет адаптация Linux-дистрибутивов к требованиям ИТ-компаний.
CNews: Как массовый переход на Linux влияет на российский ИТ-рынок?
Иван Волков: Как я уже сказал, такие события имеют долгосрочные последствия. Компании, которые перешли на отечественный дистрибутив, и вендоры, адаптировавшие свои продукты под Linux, приложили для реализации этих задач слишком много усилий и вряд ли теперь будут уходить с Linux обратно. Это слишком дорого, даже если пропадут все риски, которые проявили себя в 2022 году в виде резкого ухода западных компаний. Я считаю, что мы имеем дело с долгосрочным трендом. Он был спровоцирован внешними обстоятельствами, но имеет свойство поддерживать себя и нарастать со временем.
CNews: Как вы оцениваете ход импортозамещения? Готовы ли заказчики внедрять российские продукты?
Иван Волков: Когда этот тренд только себя проявлял, мы делали предположения, насколько быстро все будет происходить, и реальность превзошла наши ожидания. Крупные компании серьезно подходят к вопросу импортозамещения, вкладывают в это усилия и время, демонстрируют готовность внедрять новые продукты. Мы, да и другие вендоры, понимаем всю сложность и комплексность этой задачи, поэтому стараемся делать свои решения такими, чтобы упростить для клиентов процесс перехода на отечественное ПО.
CNews: Content AI специализируется на технологиях OCR и NLP. Какие перспективы для них вы видите? Не теряются ли они сегодня за более «хайповыми» генеративными технологиями?
Иван Волков: Актуальность задач, которые решаются с помощью технологий OCR и NLP, сохраняется. У бизнеса есть потребность в распознавании и интеллектуальной обработке информации. Мы видим это по все возрастающим запросам наших клиентов. Что касается генеративных нейросетей, то они могут стать еще одним инструментом для решения этих задач и дополнить возможности OCR и NLP. Новые технологии ведут к прогрессу в области машинного обучения, и совместно это позволяет снижать трудоемкость автоматизации. Через какое-то время нам потребуется гораздо меньше усилий, чтобы научить систему работать с новым типом документов, мы сможем точнее извлекать сущности из текста на естественном языке.
CNews: Content AI позиционирует себя как лидера на российском рынке OCR-технологий. На чем основана эта позиция? Ведь сегодня многие компании предлагают решения для распознавания.
Иван Волков: Технологии, которые мы используем, созданы на основе обширной научной базы. Они развивались в течение 30 лет на огромном количестве проектов различной сложности. Многие компании пробуют свои силы в схожих областях и тратят большие усилия для решения вопросов, которые мы уже давно закрыли. Особенно ярко это проявляется в таких непростых задачах, как распознавание таблиц и документов со сложной структурой.
Наши продукты могут работать под очень высокой нагрузкой, например, обрабатывать порядка 1 млн документов в день. Это недостижимые цифры для многих конкурентных решений. А мы не только теоретически умеем обрабатывать такой объем, но и делаем это каждый день. Все это свидетельствует не только о производительности, масштабируемости и стабильности наших продуктов, но и об уровне их зрелости.
■ erid:LjN8K6hTaРекламодатель: OOO "Контент ИИ"ИНН/ОГРН: 9715416652/1227700186174Сайт: https://www.contentai.ru/