Как уменьшить шум изображения? - PullRequest
0 голосов
/ 20 июня 2019

Я загружаю текст из некоторых изображений. С некоторыми из них у меня проблемы, с этим типом изображения

library(magick)
library(tesseract)
image_read(fichero.jpg) %>%
  tesseract::ocr(engine = tesseract("eng")) %>%
  cat()

Результат

Я предполагаю (поправьте меня, если нет), что тессеракт не работает из-за низкого качества изображения (это отсканированный документ), и я не знаю, есть ли способ улучшить изображение.

Я пробовал также несколько методов конвульсии с несколькими ядрами, пытаясь уменьшить шум фотографии, но это было хуже.

Есть ли способ справиться с этим, или я должен предположить, что невозможно получить текст в этом качественном изображении?

Привет

Ответы [ 2 ]

0 голосов
/ 22 июня 2019

Похоже, вы пытаетесь создать корову из говяжьего фарша.Большая проблема в том, что JPEG не подходит для этого типа не фотографического изображения.Ваш png выглядит нормально, потому что это формат без потерь.

Если вы не хотите эту проблему, не сохраняйте файлы в формате JPEG.

0 голосов
/ 20 июня 2019

Если смотреть на это с опытом фотографа, а не программиста, я бы предположил, что плохая фокусировка и дрожание камеры делают это изображение довольно нечитаемым большинством опций распознавания текста.Я просто использовал OCR в Adobe Acrobat, чтобы поиграть с ним на моем собственном ПК, и я мог заставить «FECHA» распознавать, но не «NUMERO» и ни одно из чисел.

Я вытащил его на фотографиюредактора и перепутал с контрастом, поскольку иногда можно преобразовать изображение в градациях серого в черно-белое изображение и избавиться от некоторой нечеткости, но я не мог создать читаемое изображение в своем быстром и- грязный эксперимент.

Таким образом, для получения надежного распознавания текста вам понадобятся изображения, отсканированные / сфотографированные с более высоким разрешением и лучшей контрастностью.

...