Как проверить, является ли PDF отсканированным изображением или содержит текст - PullRequest
0 голосов
/ 16 апреля 2019

У меня большое количество файлов, некоторые из них являются отсканированными изображениями в PDF, а некоторые - полными / частичными текстами PDF.

Есть ли способ проверить эти файлы, чтобы убедиться, что мы обрабатываем только файлыкакие отсканированные изображения, а не те, которые уже являются полными / частичными текстовыми файлами PDF?

Я использую PYTHON 3.6.

Спасибо

1 Ответ

0 голосов
/ 16 апреля 2019

Приведенный ниже код будет работать для извлечения текстовых данных из файлов PDF с возможностью поиска и без поиска.

import fitz
text=""
path = ("Your_scanned_or_partial_scanned.pdf")

doc = fitz.open(path)
for page in doc:                            
    text+=(page.getText())

Если у вас нет модуля fitz, вам нужно сделать это:

pip install --upgrade pymupdf

...