Question

В настоящее время я работаю над проектом, в котором мне нужно иметь возможность динамически классифицировать входящие документы. Эти документы могут прийти в виде текстовых PDF-файлов, а также отсканированных PDF-файлов.

У меня есть следующие метки:

Счет-фактура
Упаковочный лист
Сертификат

Я пытаюсь выяснить, как мне следует подойти к этой проблеме.

Мои первоначальные мысли

Я думал, что лучший способ решить эту проблему - провести классификацию текста на основе текста документа.

Шаг 1 - Обучите модель

Сначала преобразуйте файлы PDF в текст.
Затем пометьте текстовое содержимое одной из трех меток. (Сделайте это для большого набора данных)

Шаг 2 - Используйте модель

После обучения модели для новых входящих документов преобразуйте это к тексту.
Проведите текстовое содержание через модель, чтобы получить классификацию текста.

Есть ли другой способ сделать это? Меня беспокоит то, что я не уверен, что вы можете выполнять НЛП на полных текстовых документах? Может быть, вместо этого нужно обнаружение объектов (Computer Vision)?

Adnan S · Answer 1 · 14 февраля 2020

Компьютерное зрение было бы быстрее и мой первый выбор в вашем случае использования. Различаются ли три типа документов визуально, когда вы смотрите на них с точки зрения макета? Сертификаты, вероятно, имеют другой «внешний вид» и «макет», но упаковочные листы и счета могут выглядеть одинаково. Вы хотели бы преобразовать PDF в изображения страниц, а также обучить и запустить модель классификации изображений. Вы должны использовать трансферное обучение на предварительно обученной модели классификации изображений, такой как Re sNet.

. Вы можете выполнять НЛП на «целых документах», но это лучше всего работает с прозаическим текстом, а не с текстом в счетах или упаковочном листе. Вы можете искать модели встраивания предложений (Infersent, Google USE, BERT), которые на самом деле можно использовать для классификации всего текста страницы, а не только предложений. Хотя некоторые из них могут быть вычислительно дорогими.

Классификация документов с использованием машинного обучения

Мои первоначальные мысли

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Классификация документов с использованием машинного обучения

Мои первоначальные мысли

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы