В настоящее время я пытаюсь читать и извлекать текст из научных статей (PDF-файлов).Я попытался использовать PyPDF со следующим кодом:
import PyPDF2
pdfFileObj = open('my_research_paper.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print("Number of pages:-"+str(pdfReader.numPages))
num = pdfReader.numPages
i =0
while(i<num):
pageObj = pdfReader.getPage(i)
text=pageObj.extractText()
text1 = text.lower()
for line in text1:
print(line)
i= I+1
Проблема заключается в том, что вывод этого - только один символ в строке, что затрудняет обработку целых предложений.
Это вывод, который я получаю из этого файла :
t
h
a
t
c
a
n
b
e
h
a
v
e
i
n
a
n
o
n
-
d
e
t
e
r
m
i
n
i
Кто-нибудь знает, почему это выглядит так и почему я не могу получить правильноелинии, которые легче обрабатывать.Для меня идеалом было бы получить предложения из pdf, чтобы я мог затем найти некоторые конкретные слова в этих предложениях и сосчитать их вхождения.