У меня есть тонна PDF-файлов, которые расположены в двух столбцах. Когда я использую PyPDF2 для извлечения текста, он читает весь первый столбец (которые похожи на заголовки) и весь второй столбец. Это делает невозможным разделение заголовков. Он разбит на две колонки:
____ __________
| Col1 Col2 |
| Col1 Col2 |
| Col1 Col2 |
| Col1 Col2 |
____ __________
Я думаю, мне нужно разделить PDF-файл пополам вдоль края столбца, а затем прочитать каждый столбец слева направо. Это 2,26 дюйма шириной на 8x11 PDF. Я также могу получить координаты, используя PyPDF2.
У кого-нибудь есть опыт в этом деле или знаете, как я это сделаю?
Редактировать: Когда я извлекаю текст с помощью PyPDF2, выходной файл не имеет пробелов: Col1Col1Col1Col1Col2Col2Col2Col2