Я пытаюсь сделать OCR на некоторых видеокадрах в оттенках серого, используя tesseract. Распознавание субтитров сложнее, чем извлечение документов, поскольку текст находится над рамкой фона, а фон создает много шума и может иметь цвет, аналогичный субтитрам. Шрифт, как правило, сглаживается, что затрудняет извлечение только текста с пороговым значением, и для еще большей сложности рамки, над которыми я работаю, имеют оттенки серого и уменьшены.
Вот пример:
Результат, который я получаю после порога при 220:
Это уже хорошо, но, как вы можете видеть, на заднем плане остаются большие куски, и Tesseact просто не может отделить его от текста.
Существуют методы с некоторыми допущениями, например, удаление после установки порога черных областей, которые касаются границы,если предположить, что текст не подходит, но это довольно специфично и не относится ко многим случаям.
Я ищу метод, который я могу применить в реальном времени и обобщить для других фреймов.