Я бы написал небольшой скрипт для извлечения текста из PDF-файлов и проверки, является ли он «пустым».Если текст есть, PDF уже был распознан.Вы можете использовать ghostscript или XPDF для извлечения текста.
РЕДАКТИРОВАТЬ: Это поможет вам начать:
foreach ($pdffile in get-childitem -filter *.pdf){
$pdftext=invoke-expression ("\path\to\xpdf\pdftotext.exe '"+$pdffile.fullname+"' -");
write-host $pdffile.fullname
write-host $pdftext.length;
write-host $pdftext;
write-host "-------------------------------";
}
К сожалению, даже когдау вас есть только изображения в вашем PDF pdftotext
извлечет некоторый текст, поэтому вам придется проделать дополнительную работу, чтобы проверить, нужно ли вам распознавать PDF.