Разделить пакет текстовых файлов на несколько подмножеств в зависимости от содержимого файлов - PullRequest
0 голосов
/ 02 июля 2018

У меня много файлов PDF, DOC [X], TIFF и других (сканирует из общей папки). Каждый файл конвертируется в пакет текстовых файлов: по одному текстовому файлу на страницу.

Каждый пакет файлов может содержать несколько документов (например, контракты). Вид документа может быть не только контракт .

Во время обработки пакета файлов я не знаю, какие документы содержит текущий пакет, и возможно, что один пакет содержит несколько видов документов (контракты, счета и т. Д.).

Я ищу несколько возможных подходов для решения этой проблемы программно.

Я пытался найти что-то подобное, но безуспешно.

UPD: Я пытался создать двоичный классификатор с помощью scikit-learn и сейчас ищу другое решение.

Ответы [ 2 ]

0 голосов
/ 30 июля 2018

Лучшим решением было создать двоичный классификатор ( SGDClassifier ) и обучить его на классах first-page и not-first-page. Каждый элемент из набора данных был обрезан до 100 токенов (слов)

0 голосов
/ 02 июля 2018

Это по своей сути, то, что они "сканируют", звучит больше как что-то, к чему можно приблизиться с помощью компьютерного зрения, однако в настоящее время это намного выше моего нынешнего уровня программирования.

например. такие проекты, как SimpleCV, могут быть хорошей отправной точкой, http://www.simplecv.org/

Или, возможно, вы могли бы с легкостью распознавать OCR, читая "сканы" и работая на основе содержимого. Pytesseract кажется популярным для этого типа задач, https://pypi.org/project/pytesseract/

Однако все еще не хватает определения того, как бы вы сказали своей программе, что эта часть изображения означает, что это 3 отдельных контракта. Есть ли что-то в этих файлах, в частности, проясняющее это, например, «1 из 3» на страницах, логотип или иное? это будет основная часть, которая определяет, насколько сложна проблема, которую вы пытаетесь решить.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...