Сохранение табличной структуры после извлечения данных с помощью OCR Pytesseract - PullRequest
0 голосов
/ 28 января 2019

Я использую OCR Pytesseract для извлечения данных из изображения, содержащего табличные данные.Я извлекаю его в текстовый файл и хочу сохранить в листе Excel.Я не могу напрямую сохранить его в листе Excel.Но проблема, с которой я сталкиваюсь, заключается в том, что после сохранения данных в текстовом файле я теряю табличную структуру.Я попытался преобразовать в фрейм данных и также сослался на несколько SO вопросов, но ни один из них не помог.Моя цель состоит в том, чтобы каждая ячейка таблицы Excel имела единственное значение, которое можно извлечь из Tesseract.Код для сохранения в Excel и конвертации в фрейм данных:

text = pytesseract.image_to_string(PIL.Image.open("jpg path"), config = config)
#print(text)
file = open("file.txt","a+", encoding  = "utf-8")
file.write("text :{0}".format(text)) 
file.close() 
list_of_lists = []

with open("fileone.txt", 'r', encoding = "utf-8") as f:
    for line in f:
        inner_list = [line.strip() for line in line.split("  ")]
        list_of_lists.append(inner_list)

df = pd.DataFrame(list_of_lists)
print(df)
...