В настоящее время я работаю над проектом, в котором мне нужно иметь возможность динамически классифицировать входящие документы. Эти документы могут прийти в виде текстовых PDF-файлов, а также отсканированных PDF-файлов.
У меня есть следующие метки:
- Счет-фактура
- Упаковочный лист
- Сертификат
Я пытаюсь выяснить, как мне следует подойти к этой проблеме.
Мои первоначальные мысли
Я думал, что лучший способ решить эту проблему - провести классификацию текста на основе текста документа.
Шаг 1 - Обучите модель
- Сначала преобразуйте файлы PDF в текст.
- Затем пометьте текстовое содержимое одной из трех меток. (Сделайте это для большого набора данных)
Шаг 2 - Используйте модель
- После обучения модели для новых входящих документов преобразуйте это к тексту.
- Проведите текстовое содержание через модель, чтобы получить классификацию текста.
Есть ли другой способ сделать это? Меня беспокоит то, что я не уверен, что вы можете выполнять НЛП на полных текстовых документах? Может быть, вместо этого нужно обнаружение объектов (Computer Vision)?