Я использую CountVectorizer
, чтобы подготовить набор данных для ML. Я хочу отфильтровать редкие слова и для этого использую параметр CountVectorizer
, minDF или minTF. Я также хотел бы удалить элементы, которые «часто» появляются в моем наборе данных. Я не вижу параметр maxTF или maxDF, который я могу установить. Есть ли хороший способ сделать это?
df = spark.createDataFrame(
[(0, ["a", "b", "c","b"]), (1, ["a", "b", "b", "c", "a"])],
["label", "raw"])
Так что в этом случае, если бы я хотел удалить параметры, которые появлялись «4» раза или 40% времени, и те, которые появлялись 2 раза или меньше. Это уберет «b» и «c».
В настоящее время я запускаю CountVectorizer(minDf=3......)
для нижней границы запроса. Как я могу отфильтровать элементы, которые появляются чаще, чем я хочу моделировать.