Сжатие оцифрованных изображений документов - PullRequest
4 голосов
/ 03 июня 2010

Теперь мы обязаны по закону оцифровывать все финансовые документы в нашей компании и отправлять их на оценку каждые 3 месяца.

Поскольку это конфиденциальные данные, мы решили взять дело в свои руки и создать своего рода архиватор цифровых данных. Инструмент работает отлично, но после 7 месяцев использования мы начинаем беспокоиться о дисковом пространстве, используемом этими образами.

Вот некоторая информация о количестве оцифрованных документов:

  • 15K документов, сканируемых и архивируемых в день, с конечным размером PNG + - 860 КБ: 15 000 * 860 килобит = 1,53779984 гигабайт
  • 30 дней работы в месяц: 1,53779984 гигабайта * 30 = 46,1339952 гигабайта
  • Ожидание использования дискового пространства через 1 год: 46,1339952 гигабайта * 12 = 553.607942 гигабайта

Пока что мы используем 424 гигабайта дискового пространства без учета резервного копирования. Мы используем PNG в качестве формата изображения, но я хотел бы знать, есть ли у кого-нибудь совет относительно лучшего алгоритма сжатия изображений или альтернативных стратегий сжатия PNG, даже более или даже более совершенных способов архивирования изображений для экономии места на диске. 1015 *

Любая помощь будет оценена, спасибо.

Ответы [ 3 ]

3 голосов
/ 03 июня 2010

Вам будет лучше с DjVu , относительно новым форматом, специально разработанным для сжатия отсканированных документов. Хорошо работает для документов с битовой, серой и цветной печатью. Он сочетает в себе разделение на передний и задний план со сложной схемой сжатия вейвлетов. Если вы получите коммерческую версию, я думаю, вы также можете получить документы для распознавания текста, чтобы вы могли искать их, но есть версия с полностью открытым исходным кодом, называемая DjVuLibre .

2 голосов
/ 03 июня 2010

Предположительно, эти документы не обязательно должны быть постоянно онлайн. Если это так, то из предоставленной вами информации я не вижу причин, по которым вам нужно было бы изменить рабочий процесс.

PNG - широко поддерживаемый формат со сжатием без потерь (zlib), который, я полагаю, вы используете. Если вам не нужно сжатие без потерь, хороший JPEG-файл обеспечит более плотное сжатие за счет незначительной потери качества, если вы настроите соотношения сжатия соответствующим образом. JPEG2000 может быть другой альтернативой, в зависимости от вашего программного стека. TIFF со сжатием LZW не предлагает никаких существенных преимуществ перед PNG, кроме поддержки 16 бит на пиксель, которая вам, вероятно, не нужна. Другие варианты включают фирменные специальные кодеки (такие как MrSID), которые предлагают чрезвычайно хорошее сжатие чрезвычайно больших файлов по цене.

Поскольку это отсканированные документы, я думаю, что я думаю о PDF как о "естественном" формате для их кодирования. PDF предлагает различные варианты сжатия в зависимости от содержимого файлов. Но я бы не пошел на все, чтобы починить то, что не сломано.

Если вы думаете о том, сколько вы сейчас тратите на дисковое пространство, 1,5 ГБ в день - ничто. Место на диске дешево и постоянно дешевеет. Просто покупайте три новых USB-накопителя емкостью 1 ТБ (основное / резервное / внешнее резервное копирование) каждые 6 месяцев на общую сумму 240 долларов или что-либо еще. Даже резервное копирование на ленту не является необоснованным.

0 голосов
/ 03 июня 2010

500 ГБ в год - это немного, а жесткие диски с каждым годом дешевеют

...