Как сохранить форматирование и удалить скрытые данные при конвертации из PDF в текст с помощью Poppler-utils - PullRequest
1 голос
/ 08 июля 2019

У меня есть PDF в формате ниже

**Cutomer PO number Invoice  Date1  Date2     Currency**

11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00

поэтому я конвертирую pdf в текст используя.

pdftotext -layout -f sample.pdf sample.txt

Вот проблема, строка переполняется до следующей строки, как показано ниже.

11235 po-689573/gqmr312
                       IN-345 30/12/2018 11/01/2019 200,234.00

Я хочу, чтобы Попплер не взял все скрытые тексты gqmr312 и IN-345.

И вернуть все в одну строку.

Как и в формате PDF, как указано ниже.

11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00

Есть ли способ добиться этого в python.

...