Как l oop просмотреть каталог файлов PDF и записать информацию в Pandas Dataframe в Python? - PullRequest
0 голосов
/ 04 мая 2020

Я очень плохо знаком с Python, Pandas и НЛП, но прошел несколько вступительных курсов. У меня есть каталог из 3 файлов PDF (будет больше сотни, как только я получу полный набор данных). Я хочу открыть каждый файл и сделать два столбца в Pandas фрейме данных, который я в конечном итоге смогу использовать для некоторых работ по НЛП. Два необходимых столбца - это столбец идентификатора с именем PDF, а второй столбец - это просто весь текст / информация, расположенная в этом PDF

. Этот код я использовал для go через один файл в время:

import PyPDF2 as pdf
i = 0
    while i < pdf_reader.getNumPages():
        pageinfo = pdf_reader.getPage(i)
        print(pageinfo.extractText())
        i = i + 1

Это код, который я использовал для именования своего каталога и распечатки имен файлов:

import os
directory = os.listdir('test_files/')
directory = os.listdir('test_files/')
for entry in directory:
    print(entry)

** Обновление, это то, что я до сих пор , Кажется ли это близко?

directory = os.listdir('test_files/')
for entry in directory:
    file = open(entry,'rb')
    pdf_reader = pdf.PdfFileReader(file)
    i = 0
    while i < pdf_reader.getNumPages():
        pageinfo = pdf_reader.getPage(i)
        i = i + 1
    data = {'PDF_ID':[entry],
       'Text_Data': [pageinfo.extractText()]}
    df = pd.DataFrame(data, columns = ['PDF_ID','Text_Data'])

было бы идеально, но я не нашел лучшего способа объединить их и одновременно создать блок данных. У меня уже есть функция, которая будет очищать и маркировать текст, но один файл за раз не идеален. Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...