Я очень плохо знаком с Python, Pandas и НЛП, но прошел несколько вступительных курсов. У меня есть каталог из 3 файлов PDF (будет больше сотни, как только я получу полный набор данных). Я хочу открыть каждый файл и сделать два столбца в Pandas фрейме данных, который я в конечном итоге смогу использовать для некоторых работ по НЛП. Два необходимых столбца - это столбец идентификатора с именем PDF, а второй столбец - это просто весь текст / информация, расположенная в этом PDF
. Этот код я использовал для go через один файл в время:
import PyPDF2 as pdf
i = 0
while i < pdf_reader.getNumPages():
pageinfo = pdf_reader.getPage(i)
print(pageinfo.extractText())
i = i + 1
Это код, который я использовал для именования своего каталога и распечатки имен файлов:
import os
directory = os.listdir('test_files/')
directory = os.listdir('test_files/')
for entry in directory:
print(entry)
** Обновление, это то, что я до сих пор , Кажется ли это близко?
directory = os.listdir('test_files/')
for entry in directory:
file = open(entry,'rb')
pdf_reader = pdf.PdfFileReader(file)
i = 0
while i < pdf_reader.getNumPages():
pageinfo = pdf_reader.getPage(i)
i = i + 1
data = {'PDF_ID':[entry],
'Text_Data': [pageinfo.extractText()]}
df = pd.DataFrame(data, columns = ['PDF_ID','Text_Data'])
было бы идеально, но я не нашел лучшего способа объединить их и одновременно создать блок данных. У меня уже есть функция, которая будет очищать и маркировать текст, но один файл за раз не идеален. Спасибо!