Все примеры, которые я вижу для использования spacy, просто читаются в одном текстовом файле (который имеет небольшой размер).Как загрузить корпус текстовых файлов в spacy?
Я могу сделать это с помощью textacy, выделив весь текст в корпусе:
docs = textacy.io.spacy.read_spacy_docs('E:/spacy/DICKENS/dick.pkl', lang='en')
for doc in docs:
print(doc)
Но я не совсем понимаю, какиспользовать этот объект-генератор (документы) для дальнейшего анализа.
Кроме того, я бы предпочел использовать spacy, а не textacy.
spacy также не может прочитать в одном большом файле (~ 2000000символы).
Любая помощь приветствуется ...
Рави