Я использую Tesseract python для извлечения текста из таблиц в отсканированном PDF. Данные корректно извлекаются с использованием:
--psm 6
: которые предполагают один единый блок текста. Я пробовал таким образом
extracted_text += image_to_string(Image.open(image), config='--psm 6')
Я хочу изменить порядок текста. Есть ли способ извлечь каждый столбец в одну строку? Пример очень маленького масштаба:
Header 1 Header 2
cell 11 cell 21
cell 12 cell 22
И вот что я ищу:
Header 1 cell 11 cell 12
Header 2 cell 21 cell 22