В настоящее время купить книгу более практично, чем версию «мертвого дерева». Но PDF-файлы часто содержат пустые страницы, используемые печатным изданием. Обычно я вижу от 10 до 30 пустых страниц (или страниц с текстом «Эта страница намеренно оставлена пустой») для каждой книги. Можно ли программно удалить эти пустые страницы? В настоящее время я вручную идентифицирую пустые страницы, а затем провожу их через это:
pdftops orig.pdf - | psselect "$range_of_non_blank_pages" | ps2pdf - new.pdf
Так что сложная часть - это идентификация пустых страниц. pdftotext будет работать по большей части, за исключением случаев, когда на странице есть только изображения и нет текста.
Кроме того, даже после удаления большого количества страниц и уменьшения размера получаемого файла, после сжатия как исходного файла, так и новой версии (с использованием различных методов, найденных в Интернете), исходный файл обычно уменьшается на несколько сотен КБ Больше. Таким образом, похоже, что метод, который я использую для удаления пустых страниц, не создает оптимальный PDF. Я также пробовал различные графические программы и вижу те же результаты в этом отношении.