Question

Наличие нескольких файлов PDF с текстом в одном каталоге.Моя идея, чтобы иметь возможность прочитать их все сразу и сохранить в словаре.Теперь я могу сделать это только один за другим, используя библиотеку textract, например:

import textract

text = textract.process('/Users/user/Documents/Data/CLAR.pdf', 
                        method='tesseract', 
                        language='eng')

Как их можно прочитать сразу?Нужно ли использовать for циклы для поиска в каталоге или что-то еще?

An economist · Answer 1 · 04 июня 2018

Одним из решений может быть использование os library с for loop

import os
import textract

files_path = [os.path.abspath(x) for x in os.listdir()]

# Excluding not .pdf files
files_path = [pdf for pdf in files_path if '.pdf' in pdf]

pdfs = []
for file in files_path:
    text = textract.process(file,
                            method='tesseract',
                            language='eng')

    pdfs += [text]

Получить все файлы в текущем каталоге
Исключить не .pdf файлы
Сохранить текст в список (может быть другая структура данных)

Чтение многих файлов PDF в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение многих файлов PDF в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов