Question

Я использую Tesseract python для извлечения текста из таблиц в отсканированном PDF. Данные корректно извлекаются с использованием:

--psm 6: которые предполагают один единый блок текста. Я пробовал таким образом

extracted_text +=  image_to_string(Image.open(image), config='--psm 6')

Я хочу изменить порядок текста. Есть ли способ извлечь каждый столбец в одну строку? Пример очень маленького масштаба:

Header 1    Header 2
cell 11     cell 21
cell 12     cell 22

И вот что я ищу:

Header 1   cell 11   cell 12
Header 2   cell 21   cell 22

Есть ли возможность изменить порядок текста с Tesseract?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.