Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

Технологии

Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

Российский вендор помог крупной федеральной компании решить проблему трудоемкой классификации технических паспортов. В рамках пилотного проекта команда Directum обучила свою интеллектуальную систему находить и определять количество нужных штампов на документах. Благодаря интеллектуализации только одного рутинного процесса заказчик сэкономил до 300 тыс. рублей в месяц.

Эти штампы «крадут» у сотрудников 50 часов в месяц

В ИТ-компанию Directum обратилась организация, которая каждый месяц закупает для основной деятельности около 300 устройств: аппаратов для подачи газа, датчиков, различных деталей. Каждый материально-технический ресурс (МТР) поступает с паспортом изделия. Специалист, ответственный за прием МТР, вручную просматривает паспорта устройств, классифицирует их по видам и проверяет наличие круглых цветных штампов.

Что особенного в этой, казалось бы, простой работе? Рассказывает Максим Князькин, руководитель направления по развитию внедрения и сопровождению Directum Ario:

«Дело в том, что на паспортах присутствуют самые разные штампы: квадратные, прямоугольные, круглые, треугольные. Но только круглый цветной штамп подтверждает исправность и готовность устройства к эксплуатации.

Вот несколько примеров паспортов МТР, взятых из открытых источников в интернете. К сожалению, документы заказчика показать не могу, так как заключен NDA:

Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

На классификацию одного паспорта специалист тратил около 10 минут. В месяц это отнимало 50 часов, или 6 полноценных рабочих дней. Мы предложили компании-заказчику «переложить» рутину на плечи искусственного интеллекта. В рамках пилотного проекта обучили систему Directum Ario One выделять в общей массе штампов только те, которые были нужны нам.

Отмечу, что работы выполнялись в крайне сжатые сроки. Но благодаря богатому опыту и компетентному подходу заказчик оперативно получил результат, который его устроил».

Три этапа пилотного проекта

Расскажем пошагово, как протекали работы по распознаванию штампов в паспортах МТР.

Шаг 1. Зафиксировали цели и задачи проекта

На первом этапе определили три главных задачи, которые должна решить система Directum Ario One в рамках пилотного проекта:

  • классифицировать документы вида «паспорт МТР»;
  • определять наличие и количество цветных круглых штампов у документов нужного вида;
  • находить местоположение цветных круглых штампов.
  • Вместе с заказчиком установили, что испытания признаем успешными, если итоговая точность по следующим пунктам будет равна или больше 70%:

  • документы из предоставленной выборки корректно классифицированы: верно определен вид документа «паспорт МТР»;
  • верно определено наличие/отсутствие цветных круглых штампов и их количество;
  • корректно обнаружено местоположение цветных круглых штампов.
  • Шаг 2. Обучили сервис находить нужные штампы

    В рамках нашей интеллектуальной системы Directum Ario One есть несколько сервисов, подходящих для поставленных задач – классификации документов и нахождения печати.

    Обучение сервиса «Классификатор»

    Для того чтобы провести корректную классификацию вида документа «паспорт МТР», мы запросили у заказчика выборку документов для обучения. Нам потребовалось около 400 примеров различных паспортов материально-технических ресурсов, чтобы загрузить их в Machine learning (машинное обучение, ML) и в результате получить модель.

    Обучение одной модели на выборке занимало не более 1 часа, даже на железе с не самыми лучшими характеристиками и при условии параллельной загрузкой сервера другими ML-моделями.

    Коротко о механике процесса:

    1. Из выборки заказчика извлекается текстовый слой с помощью OCR (Optical Character Recognition – оптическое распознавание символов).
    2. Каждому слову/символу присуждается вес, в зависимости от частоты повторения.
    3. Все извлеченные текстовые слои обрабатываются, формируется векторная модель вида документа:

    Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

    Из Machine learning результат возвращался в виде модели. Оставалось протестировать ее на документах вне выборки и узнать точность определения вида документа. На тестовом прогоне результат составил 90%.

    Обучение сервиса «Нахождение печати»

    А вот здесь у нас уже всё было готово. Система Directum Ario One уже включала сервис с готовыми моделями. Ранее с помощью нейронных сетей мы обучали их на выборке около 25 000 документов находить и фиксировать количество штампов.

    Оставалось только провести разметку области, где нужно искать этот штамп.

    Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

    Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

    На примерах подсвечена область поиска штампа и его процент попадания в эту область

    После дообучения модели мы провели тестирование и получили 92% точности по нахождению и определению местоположения штампа.

    Что не вошло в пилотный проект, но оказалось полезно

    В ходе тестирования мы проверяли обученные модели на различных документах и разных штампах. Так иногда нейронка срабатывала на треугольную или другую печать, наша задача сводилась к тому, чтобы научить модель извлекать только круглый цветной штамп.

    Проводили тесты с прямоугольными штампами, их наша модель успешно не находила.

    Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

    Также в ходе тестирования мы обнаружили, что ML-модель находит незавершенные круглые цветные штампы. Это в целом повысило процент корректного нахождения до 94%.

    Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

    Шаг 3. Удивили заказчика результатом

    После завершения тестирования мы продемонстрировали результаты представителям заказчика, и они признали испытания успешными.

    Однако коллеги не сразу поверили, что всё теперь делает искусственный интеллект. В момент встречи они попросили прогнать через нашу систему еще парочку документов, которых ранее не было в тестовой выборке. Мы были к этому готовы. Прогнав через Directum Ario One новые документы, получили результаты ничуть не ниже итоговых на пилоте.

    По результатам пилотного проекта и испытаний заказчик получил финальный документ с результатами тестирования – «Протокол оценки точности классификации, определения наличия штампа и его местоположения». Дополнительно руководитель пилотного проекта прокомментировал каждый документ с распознанными или нераспознанными штампами.

    Результаты пилотного проекта:

    Также мы сообщили заказчику, что полученные показатели можно улучшить. Один из возможных вариантов – предоставить дополнительные выборки документов различных форм. Компания Directum планирует развивать полученные на пилоте модели и обучать их на новых штампах треугольной и прямоугольной формы.

    Если читателям будет интересен описанный опыт, и они захотят протестировать или попробовать на своих данных или задачах наши интеллектуальные сервисы, команда Directum Ario One всегда открыта к пилотным и промышленным проектам.

    Илья Петухов, руководитель развития AI-продуктов в компании Directum

    Прокомментируйте первым!
    Источник

    Оцените статью
    Добавить комментарий