PyPDF2 возвращает только одну строку на символ - PullRequest
0 голосов
/ 13 сентября 2018

В настоящее время я пытаюсь читать и извлекать текст из научных статей (PDF-файлов).Я попытался использовать PyPDF со следующим кодом:

import PyPDF2

pdfFileObj = open('my_research_paper.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print("Number of pages:-"+str(pdfReader.numPages))
num = pdfReader.numPages
i =0
while(i<num):
    pageObj = pdfReader.getPage(i)
    text=pageObj.extractText()
    text1 = text.lower()
    for line in text1:
        print(line)
    i= I+1

Проблема заключается в том, что вывод этого - только один символ в строке, что затрудняет обработку целых предложений.

Это вывод, который я получаю из этого файла :

t
h
a
t
c
a
n
b
e
h
a
v
e
i
n
a
n
o
n
-
d
e
t
e
r
m
i
n
i

Кто-нибудь знает, почему это выглядит так и почему я не могу получить правильноелинии, которые легче обрабатывать.Для меня идеалом было бы получить предложения из pdf, чтобы я мог затем найти некоторые конкретные слова в этих предложениях и сосчитать их вхождения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...