Я пытаюсь извлечь символы из изображения, в котором есть японский, английский и цифры. Поскольку у нас не так много изображений, я попытался использовать тессеракт после предварительной обработки изображения, но, тем не менее, он не может дать вывод со всеми символами на изображении.
Перед подачей изображения в тессеракт я выполнил различные этапы предварительной обработки, которые включают в себя:
- * 1006 Изменение масштаба *
- Глобальный порог (все виды бинаризации)
Даже после определения порога и изменения масштаба, tesseract не может извлечь символы из изображения. Поскольку у меня недостаточно данных для обучения моей собственной модели, я пытаюсь использовать тессеракт.
#importing required libraries
import cv2 as cv
import numpy as np
from PIL import Image
import pytesseract
#Rescaling
im = Image.open("test_2.jpg")
im.save("test_2.tiff", dpi=(300,300))
#global thresholding -- Binarisation
img = cv.imread('test_2.tiff')
grayscaled = cv.cvtColor(img,cv.COLOR_BGR2GRAY)
retval, threshold = cv.threshold(grayscaled, 180, 255, cv.THRESH_BINARY_INV)
cv.imshow('original',img)
cv.imshow('threshold',threshold)
cv.waitKey(0)
cv.destroyAllWindows()
cv.imwrite('Final.jpg',threshold)
text2= pytesseract.image_to_string(Image.open('Final.jpg'),lang='jpn+eng')
print(text2)
Пожалуйста, найдите вывод ниже:
SS パンツタイプ ウルトラジャンボ ALナコ >ド _
交 8ー
選べる4サイズ
の衝のか
Входное изображение:
![Input Image](https://i.stack.imgur.com/spU2T.jpg)
Выход:
![Output](https://i.stack.imgur.com/IdWEF.png)