Как упомянуто в документации , HashingTF
- это Transformer
, который принимает наборы токенов и генерирует векторы частотных векторов.TF включен в этот шаг.
hashingTF = HashingTF(inputCol="words", outputCol="rawFeatures", numFeatures=20)
featurizedData = hashingTF.transform(wordsData)
Далее - IDF
- это Estimator
, который помещается в набор данных и создает IDFModel
.IDF включается в этот шаг как IDFModel
токены понижающего веса, которые встречаются часто.
idf = IDF(inputCol="rawFeatures", outputCol="features")
idf
Оценщик должен быть пригоден для производства трансформатора.Следовательно, последние шаги:
idfModel = idf.fit(featurizedData)
rescaledData = idfModel.transform(featurizedData)