Python sklearn OCR для ответов на опрос со специальными символами (✔ и ✗) - PullRequest
0 голосов
/ 18 мая 2019

У меня есть несколько тысяч изображений в формате, показанном на этой картинке https://imgur.com/7yjiW1N, и я ищу способ преобразовать это в простую таблицу, в которой ✓ = 1, - = 0 и ✗ = -1.

Я безуспешно пробовал программное обеспечение для распознавания текста, такое как Adobe.Сейчас я рассматриваю модуль Python sklearn.До сих пор мне удалось загрузить изображение в Python и превратить его в пустой массив, и я загрузил некоторые правильные результаты, а также превратил его в массив (выглядит так: [['0', '1', '1'], ['-1', '1', '1'], ... , ['0', '1', '1']]).

import csv
from PIL import Image
import numpy
im = Image.open("training_image.png")
training_data = numpy.array(im)
with open('correct_results.csv', 'rb') as f:
    correct_results = list(csv.reader(f))

Насколько я могу видеть, процесс sklearn, кажется, всегда идет одинаково:

#Import a model: 
model=some_model()

#train it: 
model.fit(training_data,correct_results)

#predict:  
predicted_results=model.predict(new_input_data)

Теперь я хотел бы знать, как я могу преобразовать этот массивный массив в форму, которая может использоваться моделью.fit, а какую модель можно использовать для этого?До сих пор у меня не было успеха в моих исследованиях.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...