читать корпус текстовых файлов в пространстве - PullRequest
0 голосов
/ 23 сентября 2018

Все примеры, которые я вижу для использования spacy, просто читаются в одном текстовом файле (который имеет небольшой размер).Как загрузить корпус текстовых файлов в spacy?

Я могу сделать это с помощью textacy, выделив весь текст в корпусе:

docs =  textacy.io.spacy.read_spacy_docs('E:/spacy/DICKENS/dick.pkl', lang='en')

for doc in docs:
    print(doc)

Но я не совсем понимаю, какиспользовать этот объект-генератор (документы) для дальнейшего анализа.

Кроме того, я бы предпочел использовать spacy, а не textacy.

spacy также не может прочитать в одном большом файле (~ 2000000символы).

Любая помощь приветствуется ...

Рави

...