Я работаю над OCR, используя программирование на R, и столкнулся с проблемой, когда выходные данные, сгенерированные из оператора CAT, отличаются от выходных данных, генерируемых из оператора WRITE.TABLE.Я использую пакет Tesseract.Ниже приведен пример кода: -
# load necessary package ----
library(tesseract)
text5 <- ocr("D:/abc/image.jpg")
cat(text5)
write.table(text5, "D:/abc/image.txt",row.names =
FALSE, quote = FALSE, sep="\t")
Теперь, когда я запускаю оператор cat (строка 2 приведенного выше кода), я вижу следующий вывод в консоли R studio: -
Confidentlal Patlent Informatlon
Однако, когда я генерирую текстовый файл с помощью функции write.table, вывод будет другим.См. Ниже: -
Con<U+FB01>dentlal Patlent Informatlon
**** Примечание: - Во всем документе, где бы ни встречалось слово «Конфиденциально», в текстовом файле он отображается как вышеупомянутый текст ****
Я не смогу прикрепить изображение, которое я пытаюсь обработать, в качестве конфиденциального материала.
Мое исследование говорит, что оно как-то связано с символами Юникода, и OCR выполняет свою работу.Возможно, мне нужно изменить оператор write.table, чтобы включить Unicodes, но я не уверен, как это сделать.Я сослался на следующий источник , но не получил большой помощи о том, как редактировать мою существующую строку выполнения.
Может кто-нибудь помочь мне с тем, как улучшить код для чтения этого конкретного слова?
PS Это только одно слово, создающее проблему.