Простой порог Оцу для получения двоичного изображения, а затем инверсия для получения букв черного цвета и фона в белом, кажется, работает. Мы используем --psm 3
, чтобы указать Pytesseract на автоматическую сегментацию страницы c. Взгляните на Несколько вариантов конфигурации Pytesseract OCR для получения дополнительных параметров конфигурации. Вот предварительно обработанное изображение
Результат от оптического распознавания символов Pytesseract
Dolar Hoy en Cucuta
25-Enero-20
01:00PM
78.048
VENTA
Код
import cv2
import numpy as np
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
# Load image, grayscale, threshold, invert
image = cv2.imread('1.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
result = 255 - thresh
# Perfrom OCR with Pytesseract
data = pytesseract.image_to_string(result, config='--psm 3')
print(data)
cv2.imshow('result', result)
cv2.waitKey()