Да, если бы вы могли сделать пиксели текста черными, а все остальные документы белыми, вы бы добились большего успеха, хотя это не всегда возможно, есть процессы, которые могут помочь.
Медианный фильтр (и другие фильтры нижних частот) можно использовать для удаления шума, присутствующего на изображении.
эрозия также может помочь удалить вещи, которые не являются символами, такие как тонкие линии и шум.
выравнивание текста также хорошая идея, точность распознавания текста может значительно снизиться, если текст не выровнен. Для этого вы можете попробовать преобразование Хафа с последующим вращением. Используйте преобразование Хафа, чтобы найти строку в вашем тексте, а затем поверните изображение под тем же углом, что и линия.
Все упомянутые шаги обработки могут быть выполнены с помощью opencv или scikit-image.
Также хорошо отметить, что есть много других способов обработки текста, слишком много, чтобы упоминать.