Мне интересно, есть ли способ использовать OCR, чтобы иметь возможность обнаруживать несколько разных языков одновременно, в моем конкретном случае английский и французский?
Я ожидаю, что у меня будет входной корпус документов, которые могут быть отсканированными изображениями (отсюда и необходимость в оптическом распознавании символов), хотя у них также будет много цифр и других отвлекающих факторов.Большинство документов будет на английском языке, но некоторые также могут быть на французском языке.Моя цель на самом деле отказаться от французских документов, но мое использование OCR до сих пор (с использованием pytesseract / tesseract) было только прилично точным.Это заставляет меня беспокоиться о том, что добавление вопроса обнаружения языка в OCR может быть проблемой.Я также относительно новичок в OCR, поэтому я не уверен, что OCR распознает этот символ независимо от того, на каком языке он находится, особенно потому, что французский и английский используют в основном один и тот же алфавит.