Поскольку в некоторых моих PDF-файлах есть страницы с текстом и отсканированными изображениями, я запустил приведенный выше скрипт для работы с любыми PDF-файлами только с изображениями. Затем я изменил скрипт так, как он, и запустил его, чтобы устранить любые проблемы PDF:
LINECOUNT=$(wc -l "$1" | awk '{ print $1 }')
if [ "$LINECOUNT" -lt 500 ]; then
echo "Not yet OCR'ed: $1 -------- Processing...."
echo " "
ocrmypdf --force-ocr -k --oversample 600 "$1" "$1"
echo " "
else
echo "Already OCR'ed: $1"
echo " "
fi
Что в основном говорит, что файл имеет менее 500 строк для его растеризации и повторного создания. Не самое идеальное решение, но не похоже, что команда --skip-text
будет работать для меня:
ocrmypdf - пропустить текст, чтобы пропустить OCR и другую обработку на любых страницах
которые содержат текст. Текстовые страницы будут скопированы в выходной PDF
без изменений.
https://ocrmypdf.readthedocs.io/en/latest/errors.html
Хотя, если у кого-то есть лучший ответ, я буду рад его услышать.