Непоследовательная репликация счетчика векторизатора - PullRequest
0 голосов
/ 05 февраля 2019

У меня проблемы с несовместимостью Countvectorizer пакета функций ml.Когда я воспроизводю результаты работы счетчика и прилагаемый словарь, я получаю разные результаты.

Корень проблемы в том, что я получаю разные результаты LDA, когда выполняю ту же модель (устанавливая равное начальное число).

## Import packages
from pyspark.ml.feature import CountVectorizer , IDF

#compute first model
countVectors = CountVectorizer(inputCol="requester_instruction_words_filtered_complete", outputCol="raw_features", vocabSize=5000, minDF=2.0)
model = countVectors.fit(tokenized_stopwords_sample_df)
result_tf = model.transform(tokenized_stopwords_sample_df)
vocabArray = model.vocabulary

#compute new model 
countVectors_new =  
CountVectorizer(inputCol="requester_instruction_words_filtered_complete", outputCol="raw_features", vocabSize=5000, minDF=2.0)
model_new_cv = countVectors.fit(tokenized_stopwords_sample_df)
result_tf_new = model_new_cv.transform(tokenized_stopwords_sample_df)
vocabArray_new = model_new_cv.vocabulary

##Check if both vocabularies are the same
set(vocabArray_new) == set(vocabArray)
# Result: false

В соответствии с этим результатом я вижу, что, несмотря на тот же входной столбец, векторизатор подсчета пакета ml не дает стабильных и воспроизводимых результатов.Может ли yomeone помочь или предоставить альтернативу для вычисления количества векторов в pyspark?

...