Преобразовать каталог из .pdf в .txt, чтобы продолжить анализ - PullRequest
0 голосов
/ 16 апреля 2020

Я пытаюсь преобразовать каталог PDF в TXT, чтобы затем сделать больше анализа данных. Я был в состоянии написать скрипт, который открывает один файл PDF и преобразовать его в скрипт, как показано ниже. Я хотел бы, чтобы конец кода объединял все PDF-файлы в один текстовый файл. Что-то вроде all_txt = (какой бы ни был выход). Тогда я могу работать над остальными, основываясь на том, что знаю.

.pdf, которые я должен проанализировать, имеют высокое качество и хорошо конвертированы.

import PyPDF2
import glob

file = open(input() , "rb")

reader = PyPDF2.PdfFileReader(file)
numOfPages = reader.getNumPages()

for i in range(numOfPages):
    page = reader.getPage(i)
    print(page.extractText())
...