Question

Как метод в искре будет угрожать векторной колонке ассемблера?Например, если у меня есть столбец долготы и широты, лучше ли собирать их с помощью векторного ассемблера, а затем поместить его в мою модель, или это не имеет никакого значения, если я просто помещу их напрямую (отдельно)?

Example1:

loc_assembler = VectorAssembler(inputCols=['long', 'lat'], outputCol='loc')
vector_assembler = VectorAssembler(inputCols=['loc', 'feature1', 'feature2'], outputCol='features')
lr = LinearRegression(maxIter=10, regParam=0.3, elasticNetParam=0.8)
pipeline = Pipeline(stages=[loc_assembler, vector_assembler, lr])

Пример 2:

vector_assembler = VectorAssembler(inputCols=['long', 'lat', 'feature1', 'feature2'], outputCol='features')
lr = LinearRegression(maxIter=10, regParam=0.3, elasticNetParam=0.8)
pipeline = Pipeline(stages=[vector_assembler, lr])

В чем разница?Какой из них лучше?

desertnaut · Answer 1 · 17 сентября 2018

Не будет никакой разницы просто потому, что в обоих ваших примерах окончательная форма столбца features будет одинаковой, то есть в вашем первом примере вектор loc будет разбит на отдельные компоненты..

Вот короткая демонстрация с фиктивными данными (оставляя в стороне часть линейной регрессии, поскольку это не нужно для этого обсуждения):

spark.version
#  u'2.3.1'

# dummy data:
df = spark.createDataFrame([[0, 33.3, -17.5, 10., 0.2],
                              [1, 40.4, -20.5, 12., 2.2],
                              [2, 28., -23.9, -2., -1.7],
                              [3, 29.5, -19.0, -0.5, -0.2],
                              [4, 32.8, -18.84, 1.5, 1.8]
                             ],
                              ["id","lat", "long", "other", "label"])

from pyspark.ml.feature import VectorAssembler
from pyspark.ml.pipeline import Pipeline

loc_assembler = VectorAssembler(inputCols=['long', 'lat'], outputCol='loc')
vector_assembler = VectorAssembler(inputCols=['loc', 'other'], outputCol='features')
pipeline = Pipeline(stages=[loc_assembler, vector_assembler])

model = pipeline.fit(df)
model.transform(df).show()

Результат:

+---+----+------+-----+-----+-------------+-----------------+
| id| lat|  long|other|label|          loc|         features|
+---+----+------+-----+-----+-------------+-----------------+
|  0|33.3| -17.5| 10.0|  0.2| [-17.5,33.3]|[-17.5,33.3,10.0]|
|  1|40.4| -20.5| 12.0|  2.2| [-20.5,40.4]|[-20.5,40.4,12.0]|
|  2|28.0| -23.9| -2.0| -1.7| [-23.9,28.0]|[-23.9,28.0,-2.0]|
|  3|29.5| -19.0| -0.5| -0.2| [-19.0,29.5]|[-19.0,29.5,-0.5]|
|  4|32.8|-18.84|  1.5|  1.8|[-18.84,32.8]|[-18.84,32.8,1.5]| 
+---+----+------+-----+-----+-------------+-----------------+

то есть столбец features, вероятно, идентичен вашему второму примеру (здесь не показан), где вы не используете промежуточную собранную функцию loc ...

Как модель Spark обрабатывает векторный столбец?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как модель Spark обрабатывает векторный столбец?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы