Как сделать корпусное чтение из .docx, .pptx, .pdf в Python? - PullRequest
0 голосов
/ 17 февраля 2020

Как читать файлы в таких форматах, как .docx, .pptx, .pdf как корпус?

С помощью NLTK PlaintextCorpusReader можно прочитать .txt, выполнив что-то вроде:

from nltk.corpus import PlaintextCorpusReader
corpus = PlaintextCorpusReader(some_filepath_here, '.*')
corpus.raw()

... чтобы получить правильный вывод.

Также возможно читать одиночные .docx и .pptx с textract (например) и .pdf с pdfminer (например), но невозможно прочитать несколько файлов как корпус.

Есть ли опция сделать это? Как назначить process функцию textract и extract_text из pdfminer для CorpusReader?

...