Классификация документов с использованием машинного обучения - PullRequest
0 голосов
/ 13 февраля 2020

В настоящее время я работаю над проектом, в котором мне нужно иметь возможность динамически классифицировать входящие документы. Эти документы могут прийти в виде текстовых PDF-файлов, а также отсканированных PDF-файлов.

У меня есть следующие метки:

  • Счет-фактура
  • Упаковочный лист
  • Сертификат

Я пытаюсь выяснить, как мне следует подойти к этой проблеме.

Мои первоначальные мысли

Я думал, что лучший способ решить эту проблему - провести классификацию текста на основе текста документа.

Шаг 1 - Обучите модель

  • Сначала преобразуйте файлы PDF в текст.
  • Затем пометьте текстовое содержимое одной из трех меток. (Сделайте это для большого набора данных)

Шаг 2 - Используйте модель

  • После обучения модели для новых входящих документов преобразуйте это к тексту.
  • Проведите текстовое содержание через модель, чтобы получить классификацию текста.

Есть ли другой способ сделать это? Меня беспокоит то, что я не уверен, что вы можете выполнять НЛП на полных текстовых документах? Может быть, вместо этого нужно обнаружение объектов (Computer Vision)?

1 Ответ

1 голос
/ 14 февраля 2020

Компьютерное зрение было бы быстрее и мой первый выбор в вашем случае использования. Различаются ли три типа документов визуально, когда вы смотрите на них с точки зрения макета? Сертификаты, вероятно, имеют другой «внешний вид» и «макет», но упаковочные листы и счета могут выглядеть одинаково. Вы хотели бы преобразовать PDF в изображения страниц, а также обучить и запустить модель классификации изображений. Вы должны использовать трансферное обучение на предварительно обученной модели классификации изображений, такой как Re sNet.

. Вы можете выполнять НЛП на «целых документах», но это лучше всего работает с прозаическим текстом, а не с текстом в счетах или упаковочном листе. Вы можете искать модели встраивания предложений (Infersent, Google USE, BERT), которые на самом деле можно использовать для классификации всего текста страницы, а не только предложений. Хотя некоторые из них могут быть вычислительно дорогими.

...