Я пытаюсь преобразовать каталог PDF в TXT, чтобы затем сделать больше анализа данных. Я был в состоянии написать скрипт, который открывает один файл PDF и преобразовать его в скрипт, как показано ниже. Я хотел бы, чтобы конец кода объединял все PDF-файлы в один текстовый файл. Что-то вроде all_txt =
(какой бы ни был выход). Тогда я могу работать над остальными, основываясь на том, что знаю.
.pdf, которые я должен проанализировать, имеют высокое качество и хорошо конвертированы.
import PyPDF2
import glob
file = open(input() , "rb")
reader = PyPDF2.PdfFileReader(file)
numOfPages = reader.getNumPages()
for i in range(numOfPages):
page = reader.getPage(i)
print(page.extractText())