Как установить maxDF в pyspark.ml.feature.CountVectorizer, хотя там не было параметра maxDF? - PullRequest
0 голосов
/ 08 ноября 2018

Моя программа уже хорошо работала, используя CountVectorizer из пакета pyspark.ml. Но этот CountVectorizer не имеет параметра maxDF, такого как CountVectorizer, в пакете sklearn.feature_extraction.text, который удаляет термин, который встречается в списке документов слишком часто. Есть ли способ применить это к CountVectorizer из пакета pyspark.ml?

1 Ответ

0 голосов
/ 08 ноября 2018

maxDF Param был включен в Spark 2.4.0 (еще не выпущен официально, но уже доступен из архивов PyPi и Apache Foundation):

  • SPARK-23166 - Добавить параметр maxDF в CountVectorizer
  • SPARK-23615 - Добавить параметр maxDF в Python CountVectorizer

и могут использоваться как любые другие Param:

from pyspark.ml.feature import CountVectorizer

vectorizer = CountVectorizer(maxDF=99)

или

vectorizer = CountVectorizer().setMaxDF(99)

Чтобы использовать его, вам нужно либо обновить Spark до версии 2.4.0 или новее, либо сделать бэкпорт соответствующих PR и собрать Spark из источника .

...