Question

Я извлекаю текст из файла .pdf, используя пакет PyPDF2. Я получаю вывод, но не в желаемой форме. Я не могу найти, где проблема?

Фрагмент кода выглядит следующим образом:

import PyPDF2
def Read(startPage, endPage):
    global text
    text = []
    cleanText = " "
    pdfFileObj = open('F:\\Pen Drive 8 GB\\PDF\\Handbooks\\book1.pdf', 'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    num_pages = pdfReader.numPages
    print(num_pages)
    while (startPage <= endPage):
        pageObj = pdfReader.getPage(startPage)
        text += pageObj.extractText()
        startPage += 1
    pdfFileObj.close()
    for myWord in text:
        if myWord != '\n':
            cleanText += myWord
    text = cleanText.strip().split()
    print(text)

Read(3, 3)

Вывод, который я получаю в настоящее время, прилагается для справки и выглядит следующим образом:

Любая помощь высоко ценится.

Amitay Dror · Answer 1 · 27 августа 2018

эта строка cleanText += myWord просто объединяет все слова в одну длинную строку. если вы хотите фильтровать '\n', вместо:

for myWord in text:
        if myWord != '\n':
            cleanText += myWord
    text = cleanText.strip().split()

Вы можете сделать это:

text = [w for w in text if w != '\n']

Альтернатива PyPDF2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Альтернатива PyPDF2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы