Извлечение текста из PDF приводит к одной длинной строке (python) - PullRequest
0 голосов
/ 16 ноября 2018

В настоящее время у меня есть следующая функция

def readFile(fileName):
    text = ""

    pdfFileObj = open(fileName, 'rt')

    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

    num_pages = pdfReader.numPages

    count = 0
    while count < num_pages:
            pageObj = pdfReader.getPage(count)
            text += pageObj.extractText()
            count += 1

    pdfFileObj.close()
    return text

Но для большинства PDF-файлов, которые я пробую, это возвращает одну длинную строку без пробелов между словами или предложениями.Я делаю что-то не так или есть способ разделить слова?

...