Я использую OCR Pytesseract для извлечения данных из изображения, содержащего табличные данные.Я извлекаю его в текстовый файл и хочу сохранить в листе Excel.Я не могу напрямую сохранить его в листе Excel.Но проблема, с которой я сталкиваюсь, заключается в том, что после сохранения данных в текстовом файле я теряю табличную структуру.Я попытался преобразовать в фрейм данных и также сослался на несколько SO вопросов, но ни один из них не помог.Моя цель состоит в том, чтобы каждая ячейка таблицы Excel имела единственное значение, которое можно извлечь из Tesseract.Код для сохранения в Excel и конвертации в фрейм данных:
text = pytesseract.image_to_string(PIL.Image.open("jpg path"), config = config)
#print(text)
file = open("file.txt","a+", encoding = "utf-8")
file.write("text :{0}".format(text))
file.close()
list_of_lists = []
with open("fileone.txt", 'r', encoding = "utf-8") as f:
for line in f:
inner_list = [line.strip() for line in line.split(" ")]
list_of_lists.append(inner_list)
df = pd.DataFrame(list_of_lists)
print(df)