Разница в выводе между командами CAT и WRITE TABLE в R - PullRequest
0 голосов
/ 24 сентября 2018

Я работаю над OCR, используя программирование на R, и столкнулся с проблемой, когда выходные данные, сгенерированные из оператора CAT, отличаются от выходных данных, генерируемых из оператора WRITE.TABLE.Я использую пакет Tesseract.Ниже приведен пример кода: -

# load necessary package ----
library(tesseract)

text5 <- ocr("D:/abc/image.jpg")
cat(text5)
write.table(text5, "D:/abc/image.txt",row.names = 
FALSE, quote = FALSE, sep="\t")

Теперь, когда я запускаю оператор cat (строка 2 приведенного выше кода), я вижу следующий вывод в консоли R studio: -

Confidentlal Patlent Informatlon

Однако, когда я генерирую текстовый файл с помощью функции write.table, вывод будет другим.См. Ниже: -

Con<U+FB01>dentlal Patlent Informatlon

**** Примечание: - Во всем документе, где бы ни встречалось слово «Конфиденциально», в текстовом файле он отображается как вышеупомянутый текст ****

Я не смогу прикрепить изображение, которое я пытаюсь обработать, в качестве конфиденциального материала.

Мое исследование говорит, что оно как-то связано с символами Юникода, и OCR выполняет свою работу.Возможно, мне нужно изменить оператор write.table, чтобы включить Unicodes, но я не уверен, как это сделать.Я сослался на следующий источник , но не получил большой помощи о том, как редактировать мою существующую строку выполнения.

Может кто-нибудь помочь мне с тем, как улучшить код для чтения этого конкретного слова?

PS Это только одно слово, создающее проблему.

...