Я создаю модель в искре, используя ее pyspark.ml.regression.LinearRegression - PullRequest
0 голосов
/ 24 апреля 2020

Я строю модель, но получаю ошибку

from pyspark.ml.regression import LinearRegression
lr=LinearRegression(featuresCol = 'features', labelCol='label',maxIter=10)
lrModel=lr.fit(trainingdata)

IllegalArgumentException: требование не выполнено: объекты столбца должны иметь тип struct, values: array>, но на самом деле это struct, values: array>.

1 Ответ

0 голосов
/ 24 апреля 2020

Это будет go, как это. Предположим, у вас есть фрейм данных с именем df и столбцами в нем «X1», «X2», «Y».

Сначала вам нужно сгруппировать независимые переменные - «X1», «X2» в один столбец с именем «функции». Ниже приведен код для этого.

new_df = VectorAssembler(inputCols=["X1", "X2"], outputCol="features")

Теперь ваш new_df будет иметь столбцы - "X1", "X2", "features", "Y".

Теперь есть время для запуска линейной регрессии типа

model = LinearRegression(labelCol="Y").fit(training_data)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...