Я пытаюсь выяснить, как работает pdfMiner.six (текущий стабильный выпуск с Python 3.6). Документация не слишком сложна для примеров или учебников, поэтому я собираюсь методом проб и ошибок. К счастью, репозиторий содержит несколько примеров файлов, которые я могу использовать. Я считаю, что эти образцы должны корректно работать с текущей стабильной версией.
Я пытаюсь извлечь текст, который может быть читаемым и читаемым. Короче говоря, я хочу преобразовать эти PDF-файлы в html файлы, в основном с неповрежденным форматированием. Тем не менее, абзацы в примере PDF-файла как-то накладываются друг на друга, делая тексты нечитаемыми. Я играл с LAParams, с разными значениями line_overlap, line_margin и boxes_flow, но ни один из них, похоже, не решил проблему.
Вот мой код и скриншот моих результатов:
with open(pdf_file, 'rb') as fin:
extract_text_to_fp(fin, output_string,
output_dir=output_dir,
laparams=LAParams(line_overlap=0.7, line_margin=0.7, boxes_flow=-1), output_type='html', codec='UTF-8')
with open(converted_file, 'wb') as fout:
fout.write(output_string.getvalue())