Question

У меня есть тонна PDF-файлов, которые расположены в двух столбцах. Когда я использую PyPDF2 для извлечения текста, он читает весь первый столбец (которые похожи на заголовки) и весь второй столбец. Это делает невозможным разделение заголовков. Он разбит на две колонки:

Я думаю, мне нужно разделить PDF-файл пополам вдоль края столбца, а затем прочитать каждый столбец слева направо. Это 2,26 дюйма шириной на 8x11 PDF. Я также могу получить координаты, используя PyPDF2.

У кого-нибудь есть опыт в этом деле или знаете, как я это сделаю?

Редактировать: Когда я извлекаю текст с помощью PyPDF2, выходной файл не имеет пробелов: Col1Col1Col1Col1Col2Col2Col2Col2

ericlighthofmann · Answer 1 · 16 мая 2018

Использование pdfminer.six для успешного чтения слева направо с пробелами между ними.

Разбить файл PDF на две колонки вдоль определенного измерения в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбить файл PDF на две колонки вдоль определенного измерения в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы