Question

Моя программа уже хорошо работала, используя CountVectorizer из пакета pyspark.ml. Но этот CountVectorizer не имеет параметра maxDF, такого как CountVectorizer, в пакете sklearn.feature_extraction.text, который удаляет термин, который встречается в списке документов слишком часто. Есть ли способ применить это к CountVectorizer из пакета pyspark.ml?

user10465355 · Answer 1 · 08 ноября 2018

maxDF Param был включен в Spark 2.4.0 (еще не выпущен официально, но уже доступен из архивов PyPi и Apache Foundation):

SPARK-23166 - Добавить параметр maxDF в CountVectorizer
SPARK-23615 - Добавить параметр maxDF в Python CountVectorizer

и могут использоваться как любые другие Param:

from pyspark.ml.feature import CountVectorizer

vectorizer = CountVectorizer(maxDF=99)

или

vectorizer = CountVectorizer().setMaxDF(99)

Чтобы использовать его, вам нужно либо обновить Spark до версии 2.4.0 или новее, либо сделать бэкпорт соответствующих PR и собрать Spark из источника .

Как установить maxDF в pyspark.ml.feature.CountVectorizer, хотя там не было параметра maxDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как установить maxDF в pyspark.ml.feature.CountVectorizer, хотя там не было параметра maxDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы