Проблемы с циклическим просмотром файлов в каталоге для извлечения данных в PDF-файлах и размещения их в CSV в Python - PullRequest
0 голосов
/ 28 июня 2018

Я пытался написать код, используя пакеты csv, os и PyPDF2, чтобы извлечь текст из многочисленных файлов pdf в каталоге и затем поместить данные в csv. Следующий код иллюстрирует мои усилия (он работает, но не выводит):

import PyPDF2

import csv

import os

for filename in os.listdir(os.getcwd()):
     if filename endswith('.pdf'):
     pdfFileobject = open(filename, 'rb')
     pdfUnderstander = PyPDF2.PdfFileReader(pdfFileObject)
     numberpages = pdfUnderstander.getNumPages()
     increment = 0
     text = ""
          while increment < numberpages:
          pdfPage = pdfUnderstander.getPage(increment)
          increment += 1
          text += pdfPage.extractText()
          print(text)

Я еще не совсем дошел до этой части для csv из-за сбоя вышеприведенной части, но хотел бы получить несколько советов о том, как это можно сохранить.

1 Ответ

0 голосов
/ 28 июня 2018

Я полагаю, вы ошиблись при извлечении имени файла.

Ошибки, которые вы делаете: - Имя переменной.

**pdfFileobject** = open(filename, 'rb')
pdfUnderstander = PyPDF2.PdfFileReader(**pdfFileObject**)

Попробуйте этот код:

path = r'Dir contains PDFs'
for filename in os.listdir(path):
    if filename.split(".")[-1] == 'pdf':
        print(filename)
        pdfFileObject = open(os.path.join(path, filename), 'rb')
        pdfUnderstander = PyPDF2.PdfFileReader(pdfFileObject)
        numberpages = pdfUnderstander.getNumPages()
        increment = 0
        text = ""
        while increment < numberpages:
            pdfPage = pdfUnderstander.getPage(increment)
            increment += 1
            text += pdfPage.extractText()
        print(text)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...