В настоящее время у меня есть следующая функция
def readFile(fileName):
text = ""
pdfFileObj = open(fileName, 'rt')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num_pages = pdfReader.numPages
count = 0
while count < num_pages:
pageObj = pdfReader.getPage(count)
text += pageObj.extractText()
count += 1
pdfFileObj.close()
return text
Но для большинства PDF-файлов, которые я пробую, это возвращает одну длинную строку без пробелов между словами или предложениями.Я делаю что-то не так или есть способ разделить слова?