Попытка извлечь японские символы из изображения, которое имеет японский, английский и цифры с тессерактом - PullRequest
0 голосов
/ 20 мая 2019

Я пытаюсь извлечь символы из изображения, в котором есть японский, английский и цифры. Поскольку у нас не так много изображений, я попытался использовать тессеракт после предварительной обработки изображения, но, тем не менее, он не может дать вывод со всеми символами на изображении.

Перед подачей изображения в тессеракт я выполнил различные этапы предварительной обработки, которые включают в себя:

  1. * 1006 Изменение масштаба *
  2. Глобальный порог (все виды бинаризации)

Даже после определения порога и изменения масштаба, tesseract не может извлечь символы из изображения. Поскольку у меня недостаточно данных для обучения моей собственной модели, я пытаюсь использовать тессеракт.

#importing required libraries

import cv2 as cv
import numpy as np
from PIL import Image
import pytesseract

#Rescaling

im = Image.open("test_2.jpg") 
im.save("test_2.tiff", dpi=(300,300))

#global thresholding -- Binarisation
img = cv.imread('test_2.tiff')
grayscaled = cv.cvtColor(img,cv.COLOR_BGR2GRAY)
retval, threshold = cv.threshold(grayscaled, 180, 255, cv.THRESH_BINARY_INV)
cv.imshow('original',img)
cv.imshow('threshold',threshold)
cv.waitKey(0)
cv.destroyAllWindows()
cv.imwrite('Final.jpg',threshold)

text2= pytesseract.image_to_string(Image.open('Final.jpg'),lang='jpn+eng')
print(text2)

Пожалуйста, найдите вывод ниже:

SS パンツタイプ ウルトラジャンボ ALナコ >ド _
交 8ー

選べる4サイズ
  の衝のか

Входное изображение:
Input Image

Выход:
Output

...