CountVectorizer в кусках - Python - PullRequest
       100

CountVectorizer в кусках - Python

0 голосов
/ 06 августа 2020

У меня 1 миллион документов, и мне нужно сделать CountVectorizer (не могу sh, потому что мне нужно сопоставить функции)

Когда я пытаюсь fit_transform всего тысячу, это занимает всего несколько минут, но когда я пытаюсь обработать все данные ... 5 часов, и это не заканчивается. (Есть способ узнать прогресс?), Я думаю, что моему p c просто не хватает памяти

Если я fit_transform chunks (100 тысяч x 10), счетчик изменится, не так ли?

Что мне делать? Спасибо!

from sklearn.feature_extraction.text import CountVectorizer

# Bag of Words 
n_words = 20000
n_grams = (1,3)
vect = CountVectorizer(max_features=n_words, ngram_range=n_grams)
X_train = vect.fit_transform(X_train).astype("float32")   # X_train.shape == 1 million
X_val = vect.transform(X_val).astype("float32")  
features = vect.get_feature_names()
print("CountVectorizer Done")
...