У меня была похожая проблема, когда я писал какое-то программное обеспечение для сканирования книг; В интернете ходит программа pagetools , которая выпрямляет отсканированные страницы, используя довольно умный математический прием, называемый преобразованием Радона.
Я также написал небольшую процедуру, которая уберет пробел на странице; Алгоритмы OCR, как правило, работают намного лучше, когда им не приходится бороться с фоновым шумом. То, что я сделал, это посмотрел на светлые пиксели, которые были более чем на маленький радиус от темных, а затем повысил их до чисто белого.
Однако прошло несколько лет, поэтому у меня нет точных подробностей реализации.