У меня есть что-то вроде 40 миллионов документов TIFF, все однобитные одностраничные дуплексы. Примерно в 40% случаев заднее изображение этих TIFF-файлов является «пустым», и я хотел бы удалить их перед загрузкой в CMS, чтобы уменьшить требования к пространству.
Есть ли простой способ просмотреть содержимое данных каждой страницы и удалить его, если он падает ниже заданного порогового значения, скажем, 2% «черный»?
Я не разбираюсь в технологиях, но решение C #, вероятно, будет проще всего поддерживать. Проблема в том, что у меня нет опыта работы с изображениями, поэтому я не знаю, с чего начать.
Редактировать, чтобы добавить: Изображения - это старые сканы, поэтому они «грязные», так что это не является точной наукой. Порог должен быть установлен, чтобы избежать вероятности ложных срабатываний.