Есть ли способ разграничить родной и отсканированный PDF? - PullRequest
0 голосов
/ 22 июня 2019

Я использую методы ocr для извлечения текста из pdf, содержащего изображения, но я хочу использовать ocr, только если pdf еще не доступен для поиска, в противном случае я хочу использовать pdfminer или аналогичные библиотеки.

Есть лиспособ разграничить PDF-файлы, которые уже доступны для поиска, и PDF-файлы, которые не являются?

1 Ответ

0 голосов
/ 24 июня 2019

Просто чтобы прояснить, «родной PDF» на самом деле не является термином из стандарта PDF, я видел, что некоторые люди используют его для обозначения PDF, созданного непосредственно в программном обеспечении для создания PDF-документов, поэтому у вас есть такие вещи, как текст и векторная графика в это например.

Это будет зависеть от того, что вы знаете об исходных документах PDF, которые вы получаете. Например, если вы знаете, что все нативные PDF-файлы всегда будут состоять из текста, вы можете просто извлечь текст из документа, а если найдете, рассмотрите его как нативный и в противном случае считайте его отсканированным.

Если вы знаете, что все отсканированные PDF-файлы всегда будут состоять из изображений определенного размера и определенного сжатия, вы можете проверить эти атрибуты в документе и соответствующим образом классифицировать их.

Все усложняется, если вы вообще ничего не знаете о входных данных. Вы также можете посмотреть на такие вещи, как метаданные, и найти, например, ключевые слова, которые идентифицируют одно против другого.

В конечном счете, если у вас есть некоторые ограничения на тип ввода, ожидать, что классификация довольно проста.

Хороший дополнительный вопрос: зачем вам дифференцировать документы таким образом? Если бы мы немного знали об этом, возможно, мы могли бы прокомментировать подход.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...