Ядро продолжает умирать, пытаясь построить корпус в пандах - PullRequest
0 голосов
/ 26 августа 2018

Я запускал этот код в прошлом, и он работал нормально. Через пару месяцев ядро ​​продолжает умирать.

Я переустановил и обновил все файлы, связанные с conda / python. Это не имеет значения. Он останавливается на последней строке, и сообщение об ошибке не выводится.

Это сработало один раз, и не удалось 7 из последних 8 раз.

corpus = df['reviewText']

import nltk
import re
nltk.download('stopwords')

wpt = nltk.WordPunctTokenizer()
stop_words = nltk.corpus.stopwords.words('english')

def normalize_document(doc):
    # lower case and remove special characters\whitespaces
    doc = re.sub(r'[^a-zA-Z\s]', '', doc, re.I|re.A)
    doc = doc.lower()
    doc = doc.strip()
    # tokenize document
    tokens = wpt.tokenize(doc)
    # filter stopwords out of document
    filtered_tokens = [token for token in tokens if token not in stop_words]
    # re-create document from filtered tokens
    doc = ' '.join(filtered_tokens)
    return doc

normalize_corpus = np.vectorize(normalize_document)
norm_corpus = normalize_corpus(corpus)

Рад слышать любые предложения или идеи. Если есть какой-либо способ показать ошибку или причину смерти ядра, пожалуйста, дайте мне знать.

1 Ответ

0 голосов
/ 15 октября 2018

Это, кажется, помогает:

# Get rid of accumulated garbage
import gc
gc.collect()
...