Question

У меня 90 документов по 40 страниц в каждом (необработанный текст).Я хочу, чтобы их токенизировали с помощью spacy.

nlp = spacy.load('de')
tokenized_list = []

for document in doc_collection:
    temp_doc = nlp(document)
    tokenized_list.append(temp_doc)

Это работает для небольшого количества документов, но если я хочу токенизировать все, тогда выдается «MemoryError».

"...site-packages\numpy\core\shape_base.py", line 234, in vstack
    return _nx.concatenate([atleast_2d(_m) for _m in tup], 0)

MemoryError"

Кто-нибудь знает, как я могу это исправить?

Обновление: я могу выполнять его снова и снова, не меняя документы, и он иногда застревает в этом документе, иногда в этом - действительно странно ... Кто-нибудь знает подобную проблему?

rakael · Answer 1 · 07 июня 2018

Я сменил 32-битную версию Python на 64-битную.Теперь это работает!Я много пробовал, но ничего не получалось, кроме этого изменения версии.

Как я могу перебрать кучу документов и выполнить spacy nlp для каждого из них, не получая ошибку памяти?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу перебрать кучу документов и выполнить spacy nlp для каждого из них, не получая ошибку памяти?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы