Почему параграфы перекрываются в html документе, преобразованном из pdf в pdfMiner.six? - PullRequest
2 голосов
/ 13 января 2020

Я пытаюсь выяснить, как работает pdfMiner.six (текущий стабильный выпуск с Python 3.6). Документация не слишком сложна для примеров или учебников, поэтому я собираюсь методом проб и ошибок. К счастью, репозиторий содержит несколько примеров файлов, которые я могу использовать. Я считаю, что эти образцы должны корректно работать с текущей стабильной версией.

Я пытаюсь извлечь текст, который может быть читаемым и читаемым. Короче говоря, я хочу преобразовать эти PDF-файлы в html файлы, в основном с неповрежденным форматированием. Тем не менее, абзацы в примере PDF-файла как-то накладываются друг на друга, делая тексты нечитаемыми. Я играл с LAParams, с разными значениями line_overlap, line_margin и boxes_flow, но ни один из них, похоже, не решил проблему.

Вот мой код и скриншот моих результатов:

Screenshot showing the overlaping paragraphs

with open(pdf_file, 'rb') as fin:
    extract_text_to_fp(fin, output_string,
                       output_dir=output_dir,
                       laparams=LAParams(line_overlap=0.7, line_margin=0.7, boxes_flow=-1), output_type='html', codec='UTF-8')
    with open(converted_file, 'wb') as fout:
        fout.write(output_string.getvalue())
...