Чтение многих файлов PDF в Python - PullRequest
0 голосов
/ 04 июня 2018

Наличие нескольких файлов PDF с текстом в одном каталоге.Моя идея, чтобы иметь возможность прочитать их все сразу и сохранить в словаре.Теперь я могу сделать это только один за другим, используя библиотеку textract, например:

import textract

text = textract.process('/Users/user/Documents/Data/CLAR.pdf', 
                        method='tesseract', 
                        language='eng')

Как их можно прочитать сразу?Нужно ли использовать for циклы для поиска в каталоге или что-то еще?

1 Ответ

0 голосов
/ 04 июня 2018

Одним из решений может быть использование os library с for loop

import os
import textract

files_path = [os.path.abspath(x) for x in os.listdir()]

# Excluding not .pdf files
files_path = [pdf for pdf in files_path if '.pdf' in pdf]

pdfs = []
for file in files_path:
    text = textract.process(file,
                            method='tesseract',
                            language='eng')

    pdfs += [text]
  1. Получить все файлы в текущем каталоге
  2. Исключить не .pdf файлы
  3. Сохранить текст в список (может быть другая структура данных)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...