Как получить доступ к PDF из корпуса в цикле в Python - PullRequest
1 голос
/ 04 июня 2019

Я создал корпус из 2-х PDF-файлов CV, как показано ниже, и теперь я застрял, чтобы извлечь данные из корпуса в цикле.

Я хочу получить детали в цикле из корпуса.

Я попробовал приведенный ниже код, чтобы создать корпус и использовать его в цикле для получения подробностей.

mypdf = open('E:\D drive\Resumes\test_CV.pdf', mode='rb')
mypdf2 = open('E:\D drive\Resumes\test1_CV.pdf', mode='rb')

pdf_document = PyPDF2.PdfFileReader(mypdf)
pdf_document2 = PyPDF2.PdfFileReader(mypdf2)

first_page = pdf_document.getPage(0)
first_page2 = pdf_document2.getPage(0)

extract = first_page.extractText()
extract1 = first_page2.extractText()

corpus = [extract, extract1]

#here i am trying to access the corpus: but it returns both pdf data not one by one.
for corp_text in corpus:
    get_all_details(corp_text)

Он должен работать следующим образом:

  • из 1-го возврата в PDF Пример: - 'Текст PDF 1'

  • из 1-го возврата в PDF Пример: - 'Текст PDF 2'

...