Как читать файлы в таких форматах, как .docx, .pptx, .pdf как корпус?
С помощью NLTK PlaintextCorpusReader
можно прочитать .txt, выполнив что-то вроде:
from nltk.corpus import PlaintextCorpusReader
corpus = PlaintextCorpusReader(some_filepath_here, '.*')
corpus.raw()
... чтобы получить правильный вывод.
Также возможно читать одиночные .docx и .pptx с textract
(например) и .pdf с pdfminer
(например), но невозможно прочитать несколько файлов как корпус.
Есть ли опция сделать это? Как назначить process
функцию textract
и extract_text
из pdfminer
для CorpusReader
?