Sklearn.tfidfVectorizer вызывает сбой из-за перегрузки ОЗУ. Есть ли возможность генерировать векторы tfidf для 100 тыс. Текстов с 60 тыс. Слов? - PullRequest
0 голосов
/ 11 апреля 2019

DataFrame формы:

| id |       text           |
|---------------------------|
| 1  | "I am here. Hbu?"    |
| 2  | "Apples are red."    |
| 3  | "Flowers and trees." |

Я попробовал следующее

vectorizer = TfidfVectorizer(tokenizer=porter)
vectorized = vectorizer.fit_transform(df["text"])
columns = vectorizer.get_feature_names()
vectors = pd.DataFrame.from_records(index=df.index, 
data=vectorized.toarray(), columns=columns)

На наборе данных из 100 тыс. Текстов и 60 тыс. Слов, и программа всегда вылетает.Есть ли способ справиться с использованием памяти?

...