Получить текст с помощью PDF Reader? - PullRequest
0 голосов
/ 07 октября 2019

Как я могу получить только этот простой текст, когда я читаю pdf?

CLSAI10608

Этот код всегда начинается с CLXXXXXXXX, LEN = 10.

Код:

import PyPDF2
file = open('document.pdf', 'rb')
pdfreader = PyPDF2.PdfFileReader(file)
pageobj = pdfreader.getPage(0)
print(pageobj.extractText())

выход:

выход

1 Ответ

0 голосов
/ 07 октября 2019

Итак, шаблон регулярного выражения, который я придумал, ищет что-то, начиная с CL, а затем 8 непробельных символов. regex101.com предоставляет удобное объяснение.

import re

string = r"""Detalle

Total

4040CL02

  Correccion de BL

CLSAI10608LV-PASSERO V0008-MBL : ISGA0F000

47.020"""

match = re.search(r"[C][L]\S{8}", string)
if match:
    code = match.group()
    print(code)

Вывод: CLSAI10608

Таким образом, вы захотите заменить string на pageobj.extractText().

...