Можно ли установить направление чтения PDF-файла при преобразовании его в TXT. У меня есть хороший код, который работает хорошо, но мои PDF-файлы пишутся как в 2 столбцах. Для некоторых PDF код читается слева направо, а для других он читает сначала левый столбец, а затем правый столбец (делая это слева направо), но я хочу, чтобы он читал слева направо всегда не первый, а затем второй столбец.
Кто-нибудь знает, как установить направление чтения?
Вот пример (см. Рисунок ниже):
1.15 некоторый текст
еще немного текста из 1.15
1.16 много текста
больше текста для 1.16
Иногда я получаю (всегда другой файл, но это всегда структура примера)
1,15
1,16
некоторый текст
еще немного текста из 1.15
много текста
больше текста для 1.16
В другой раз я получаю (ЭТО ТО, ЧТО Я ХОЧУ)
1,15
некоторый текст
еще немного текста из 1.15
1,16
много текста
больше текста для 1.15
вот мой код:
def pdfparser(data):
fp = open(data, 'rb')
resource_manager = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
pagenos = set(pages)
laparams = LAParams()
device = TextConverter(resource_manager, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(resource_manager, device)
for page in PDFPage.get_pages(fp, pagenos):
interpreter.process_page(page)
data = retstr.getvalue()
file = open(out_file1, "w", encoding='utf-8')
file.write(data)
file.close()
pdfparser(filename)
![enter image description here](https://i.stack.imgur.com/oFevh.png)