предсказать кластер в python из рассола, построенного pyspark - PullRequest
0 голосов
/ 30 января 2020

context : я работаю с python 3.7, и мне нужно загрузить рассол, содержащий модель kmeans и созданный из pyspark с версией python 2.7.

loadKm = pickle.loads(open("test.pickle" ,"rb"), encoding='latin1') пока здесь не работает хорошо.

цель : предсказание кластера для нового текста, векторизация

clusterNumber = loadKm.predict(textVectorizer)

проблема : предсказание всегда равно 0, даже если я беру текст, уже сгруппированный по тому же алгоритму, прежде чем сохранить (сбросить) его в рассоле.

Расследование : Когда я печатаю загруженное рассоле, оно кажется хорошим, и я получаю init равен массиву !!

KMeans(algorithm='auto', copy_x=True,
init=array([[1.57549e-01, 1.64922e+00, ..., 1.04257e-02, 3.78597e-03],
   [4.60004e+01, 7.92314e+02, ..., 0.00000e+00, 0.00000e+00],
   ...,
   [4.36108e-02, 5.36567e-01, ..., 0.00000e+00, 8.13201e-03],
   [3.96619e-02, 4.51291e-01, ..., 1.79729e-02, 0.00000e+00]]),
max_iter=1, n_clusters=800, n_init=1, n_jobs=-1,
precompute_distances='auto', random_state=None, tol=0.0001, verbose=0)
...