Обратный инжиниринг файла пользовательских данных - PullRequest
3 голосов
/ 28 марта 2010

У меня на работе есть устаревшая система управления документами, которая по разным причинам не поддерживается разработчиками. Меня попросили изучить возможность извлечения документов, содержащихся в этой системе, для последующего импорта в новую стороннюю систему.

Из отслеживания и мониторинга процесса я определил, что изображения документов (в основном файлы TIFF) хранятся в нескольких файлах объемом 1,5 ГБ. Похоже, что эти файлы считываются с определенного смещения, а затем записываются в файл tmp, который затем передается клиенту через веб-приложение, а затем удаляется.

Мне кажется, я ищу предложения о том, как я могу проверить эти большие файлы, содержащие изображения tiff, и в конечном итоге извлечь и записать их в отдельные файлы.

Ответы [ 2 ]

1 голос
/ 28 марта 2010

TIFF сжаты каким-либо образом? Если нет, то ваша работа может быть довольно простой: сшить TIFF вместе из файлов 1.5G.

Можете ли вы увидеть выходные данные определенного файла 1.5G (или их серии)? Если это так, то вы сможете собрать воедино, как должны выглядеть байты для этого TIFF, если он был несжатым.

Если байты не отображаются там, попробуйте несколько стандартных сжатий (zip, tar и т. Д.), Чтобы увидеть совпадение.

0 голосов
/ 28 марта 2010

Я бы открыл файл, попытался найти требуемое смещение, а затем перенаправить его в объект TIFF (в идеале тот, который поддерживает потоковую передачу из памяти или файла). Тогда у тебя это есть. Посмотрите на некоторые другие биты, так как есть вероятные метаданные о документе, которые могут быть полезны для следующей системы.

...