У меня 90 документов по 40 страниц в каждом (необработанный текст).Я хочу, чтобы их токенизировали с помощью spacy.
nlp = spacy.load('de')
tokenized_list = []
for document in doc_collection:
temp_doc = nlp(document)
tokenized_list.append(temp_doc)
Это работает для небольшого количества документов, но если я хочу токенизировать все, тогда выдается «MemoryError».
"...site-packages\numpy\core\shape_base.py", line 234, in vstack
return _nx.concatenate([atleast_2d(_m) for _m in tup], 0)
MemoryError"
Кто-нибудь знает, как я могу это исправить?
Обновление: я могу выполнять его снова и снова, не меняя документы, и он иногда застревает в этом документе, иногда в этом - действительно странно ... Кто-нибудь знает подобную проблему?