Как сохранить и загрузить словарь_ из CountVectorizer? - PullRequest
0 голосов
/ 11 октября 2019

У меня есть класс, в котором я создаю countVectorizer и создаю векторы с помощью fit_transform. Это генерирует словарь. Я хотел бы иметь этот CountVectorizer со словарем в одном файле, чтобы иметь возможность использовать его в другом классе. У кого-нибудь есть советы для меня? Я уже пытался сделать все это с save_npz. Но это не сработало должным образом.

Вот моя функция, поскольку я пытался сохранить все это. Я не уверен, что это правильно.

...
count_vect = CountVectorizer()
...

def vectorizeData():

  clean_data = pd.read_feather('../working/' + PROJECT + '_clean.feather') 

  word_count = count_vect.fit_transform(clean_data.text)

  scipy.sparse.save_npz('../working/' + PROJECT + '_countVec.npz', word_count)


и загрузка


def ModelData():
  ...
  count_vect_test = scipy.sparse.load_npz('../working/' + PROJECT + '_countVec.npz')
  ...

после загрузки У меня есть только csr_matrix, но не объект CountVectorizer.

1 Ответ

0 голосов
/ 11 октября 2019

Вы пробовали использовать joblib?

https://joblib.readthedocs.io/en/latest/generated/joblib.dump.html

import joblib

# example for saving python object as pkl
joblib.dump(vectorizer, "vectorizer.pkl")

# loading pickled vectorizer
vectorizer = joblib.load("vectorizer.pkl")
...