context : я работаю с python 3.7, и мне нужно загрузить рассол, содержащий модель kmeans и созданный из pyspark с версией python 2.7.
loadKm = pickle.loads(open("test.pickle" ,"rb"), encoding='latin1')
пока здесь не работает хорошо.
цель : предсказание кластера для нового текста, векторизация
clusterNumber = loadKm.predict(textVectorizer)
проблема : предсказание всегда равно 0, даже если я беру текст, уже сгруппированный по тому же алгоритму, прежде чем сохранить (сбросить) его в рассоле.
Расследование : Когда я печатаю загруженное рассоле, оно кажется хорошим, и я получаю init равен массиву !!
KMeans(algorithm='auto', copy_x=True,
init=array([[1.57549e-01, 1.64922e+00, ..., 1.04257e-02, 3.78597e-03],
[4.60004e+01, 7.92314e+02, ..., 0.00000e+00, 0.00000e+00],
...,
[4.36108e-02, 5.36567e-01, ..., 0.00000e+00, 8.13201e-03],
[3.96619e-02, 4.51291e-01, ..., 1.79729e-02, 0.00000e+00]]),
max_iter=1, n_clusters=800, n_init=1, n_jobs=-1,
precompute_distances='auto', random_state=None, tol=0.0001, verbose=0)