Резидент «Сколково» обучил нейросеть в 4 раза быстрее распознавать и проверять паспорт России
Обновленную технологию представила компания «Биорг», российский разработчик систем оцифровки документов и распознавания изображений на базе искусственного интеллекта. Улучшенная нейросеть в 4,25 раза быстрее и в восемь раз точнее своей предыдущей модели распознает поле паспорта с машиночитаемой записью (МЧЗ, MRZ). Это помогает контролировать качество обработки всех данных в документе и в автоматическом режиме проверять паспорт на актуальность. Скорость и точность важны при скоринге кредитных заявок в банках, МФО, при оформлении договора в страховых компаниях и т.д. Об этом CNews сообщили представители «Биорг».
Особенность новой нейросетевой модели в том, что ИИ не пытается локализовать данные, и распознать отдельные символы в строке. Сеть находит и считывает сразу всю информацию, подобно тому, как это делает человеческий глаз. Модель понимает, что справилась с распознаванием хорошо в ходе многоэтапной постобработки - по количеству распознанных символов, по содержанию строки и т.д. Такая проверка занимает доли секунды.
«Одно из преимуществ подхода в том, что он может быть масштабирован на другие типы документов. Модель может работать не только на графических ускорителях (видеокартах), но и на обычных процессорах. Это делает процесс распознавания более экономичным с точки зрения расходов на инфраструктуру. И даже более экологичным, если учитывать, сколько электроэнергии поглощают видеокарты и сколько тепла они выделяют в датацентрах», – сказал генеральный директор «Биорг» Руслан Алигаджиев.
Нейросеть хорошо справляется даже с документами, фото которых сделано в условиях недостатка или избытка освещения, а также с изображениями документов, сфотографированных под углом, с геометрическими искажениями. Традиционно такие изображения вызывали проблемы при обработке. Точность распознавания строки МЧЗ составляет более 99%.
Ранее технологии «Биорг» применили для оцифровки архива технической документации Калининской АЭС. Объем оцифрованных данных составил семь Тб или четыре млн листов технической документации в формате А4.