Как определить файлы PDF, которые нуждаются в OCR? - PullRequest
6 голосов
/ 12 октября 2011

У меня более 30 000 файлов PDF. Некоторые файлы уже являются OCR, а некоторые нет. Есть ли способ узнать, какие файлы уже распознаны, а какие PDF-файлы являются только изображениями?

Потребуется навсегда, если я пропущу каждый файл через процессор OCR.

Ответы [ 3 ]

3 голосов
/ 12 октября 2011

Я бы написал небольшой скрипт для извлечения текста из PDF-файлов и проверки, является ли он «пустым».Если текст есть, PDF уже был распознан.Вы можете использовать ghostscript или XPDF для извлечения текста.

РЕДАКТИРОВАТЬ: Это поможет вам начать:

foreach ($pdffile in get-childitem -filter *.pdf){
    $pdftext=invoke-expression ("\path\to\xpdf\pdftotext.exe '"+$pdffile.fullname+"' -");
    write-host $pdffile.fullname
    write-host $pdftext.length;
    write-host $pdftext;
    write-host "-------------------------------";
}

К сожалению, даже когдау вас есть только изображения в вашем PDF pdftotext извлечет некоторый текст, поэтому вам придется проделать дополнительную работу, чтобы проверить, нужно ли вам распознавать PDF.

0 голосов
/ 11 сентября 2018

Я обнаружил, что TotalCmd имеет плагин, который обрабатывает это: https://totalcmd.net/plugring/pdfOCR.html

pdfOCR - это плагин wdx, который определяет, сколько страниц файла PDF в текущему каталогу необходимо распознавание символов (OCR), т.е. сколько страницы в файле PDF не имеют текста для поиска в их макете. Это в основном требуется, когда кто-то готовит PDF-файлы для документации или система архивирования. Обычно в работе с PDF-файлами они нуждаются быть преобразованным из отсканированной версии в текстовую форму поиска до они включены в любую документацию, позволяющую автоматический поиск текста. Плагин pdfOCR для Total Commander выполняет Библиотекарь нуждается в представлении количества страниц, которые являются изображениями только без текста. Количество отсканированных страниц представлены в столбце «NeedOCR». Сравнивая количество нужных страниц с количество страниц, которое можно решить, если нужен файл PDF дополнительная обработка OCR.

0 голосов
/ 06 января 2017

XPDF работал для меня по-другому.Но не уверен, что это правильный путь.

Мои PDF-файлы с изображением также содержали текст.Поэтому я использовал pdffonts.exe , чтобы проверить, встроены ли шрифты в документ или нет. В моем случае для всех файлов изображений было указано «нет» для встроенного значения.все PDF-файлы с возможностью поиска дали «да»

> Config Error: No display font for 'Symbol'
> Config Error: No display font for 'ZapfDingbats'
> name                                 type              emb sub uni object ID
> ------------------------------------ ----------------- --- --- --- ---------
> ABCDEE+Calibri                       TrueType          yes yes no       7  0
> ABCDEE+Calibri,Bold                  TrueType          yes yes no       9  0
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...