PDF установить направление чтения при преобразовании в TXT - PullRequest
0 голосов
/ 09 января 2019

Можно ли установить направление чтения PDF-файла при преобразовании его в TXT. У меня есть хороший код, который работает хорошо, но мои PDF-файлы пишутся как в 2 столбцах. Для некоторых PDF код читается слева направо, а для других он читает сначала левый столбец, а затем правый столбец (делая это слева направо), но я хочу, чтобы он читал слева направо всегда не первый, а затем второй столбец.

Кто-нибудь знает, как установить направление чтения?

Вот пример (см. Рисунок ниже): 1.15 некоторый текст еще немного текста из 1.15 1.16 много текста больше текста для 1.16

Иногда я получаю (всегда другой файл, но это всегда структура примера) 1,15 1,16 некоторый текст еще немного текста из 1.15 много текста больше текста для 1.16

В другой раз я получаю (ЭТО ТО, ЧТО Я ХОЧУ) 1,15 некоторый текст еще немного текста из 1.15 1,16
много текста больше текста для 1.15

вот мой код:

def pdfparser(data):
    fp = open(data, 'rb')
    resource_manager = PDFResourceManager()
    retstr = io.StringIO()
    codec = 'utf-8'
    pagenos = set(pages)
    laparams = LAParams()
    device = TextConverter(resource_manager, retstr, codec=codec, laparams=laparams)
    interpreter = PDFPageInterpreter(resource_manager, device)

    for page in PDFPage.get_pages(fp, pagenos):
        interpreter.process_page(page)
        data = retstr.getvalue()

    file = open(out_file1, "w", encoding='utf-8')
    file.write(data)
    file.close()

pdfparser(filename)

enter image description here

...