Разбить файл PDF на две колонки вдоль определенного измерения в Python? - PullRequest
0 голосов
/ 16 мая 2018

У меня есть тонна PDF-файлов, которые расположены в двух столбцах. Когда я использую PyPDF2 для извлечения текста, он читает весь первый столбец (которые похожи на заголовки) и весь второй столбец. Это делает невозможным разделение заголовков. Он разбит на две колонки:

____ __________
| Col1 Col2 |
| Col1 Col2 |
| Col1 Col2 |
| Col1 Col2 |
____ __________

Я думаю, мне нужно разделить PDF-файл пополам вдоль края столбца, а затем прочитать каждый столбец слева направо. Это 2,26 дюйма шириной на 8x11 PDF. Я также могу получить координаты, используя PyPDF2.

У кого-нибудь есть опыт в этом деле или знаете, как я это сделаю?

Редактировать: Когда я извлекаю текст с помощью PyPDF2, выходной файл не имеет пробелов: Col1Col1Col1Col1Col2Col2Col2Col2

1 Ответ

0 голосов
/ 16 мая 2018

Использование pdfminer.six для успешного чтения слева направо с пробелами между ними.

...