эффективное сжатие изображений для встраивания PDF с Linux - PullRequest
2 голосов
/ 02 декабря 2011

Я бы хотел сжать отсканированный текст (монохромный или несколько цветов) и сохранить его в pdf (возможно, djvu) файлах. Я помню, что я получил очень хорошие результаты с Windows / Acrobat и сжатым монохромным TIF-файлом "ZRLE", встроенным в pdf. Алгоритм был без потерь, насколько я помню. Сейчас я ищу способ получить хорошие результаты на Linux. Это должно быть сохранение памяти и избежание потерь (я не против потерять цвета, но я не хочу, например, сжатие JPEG, которое могло бы создать шумные результаты для сканирования текста). Мне нужно это для пакетного преобразования, поэтому я думал о команде преобразования ImageMagick. Но какой выходной формат я должен использовать, чтобы получить хорошие результаты и иметь возможность встраивать его в файлы PDF (например, с помощью pdflatex)? Или вообще лучше использовать файлы djvu?

Ответы [ 2 ]

2 голосов
/ 02 декабря 2011

DJVU - неплохой выбор, но если вы хотите остаться в формате PDF для лучшей совместимости, вы можете посмотреть сжатие без потерь JBIG2 .

Цитата из Википедии:

В целом алгоритм, используемый JBIG2 для сжатия текста, очень похож на схему сжатия JB2, используемую в формате файла DjVu для кодирования двоичных изображений.

1 голос
/ 05 декабря 2011

jbig2enc кодер для изображений, использующих сжатие jbig2, был первоначально написан для GoogleBooks Адам Лэнгли

https://github.com/agl/jbig2enc

Я подписал последние улучшения Rubypdf и других

https://github.com/DingoDog/jbig2enc

Я также создал несколько бинарных файлов jbig2enc для puppy linux (это может работать и в других дистрибутивах)

http://dokupuppylinux.info/programs:encoders

...