Тессеракт в R не распознает "&" - PullRequest
0 голосов
/ 19 сентября 2018

Я новичок в программировании на R и должен написать код для чтения текста с изображений!Я использую пакеты Tesseract и Magick для того же, и сталкиваюсь с проблемой, когда код преобразует «&» в «8»: «Я прикрепил изображение, которое я использую в качестве входных данных. Изображение, используемое для обработки

Ниже приведен код, который я запускаю

test2 <- image_read("C:/Users/admin/Desktop/testimage.jpg") %>%
  image_resize("2000") %>%
  image_convert(colorspace = 'gray') %>%
  image_trim() %>%
  image_ocr()
cat(test2)
write.table(test2, "C:/Users/admin/Desktop/output2.txt", sep="\t")

Ниже приведен вывод, который я получаю

No relation between boycotting
panchayat polls 8: Article 35A:
Subramanian Swamy

Я сослался на следующий источник, чтобы получить некоторое понимание, но не нашел подходящего решения для этой конкретной проблемы.

Я также просмотрел этот веб-сайт, но не нашел большой помощи в чтении специальных символов.

Если кто-то может мне помочь, это было бы очень полезно.

1 Ответ

0 голосов
/ 26 сентября 2018

Можете ли вы использовать Imagemagick с TIF вместо JPG, чтобы сделать то же самое?Я использовал следующий запрос, и он работал.

test20 <- image_read("E:/xx/image.tif") %>%
image_resize("4000") %>%
image_convert(colorspace = 'gray') %>%
image_trim() %>%
image_ocr()
cat(test20)
write.table(test2, "E:/xx/output.txt", sep="\t")
...