У меня есть существующий код в SAS, который запускает довольно простую регрессию Pro c. Мне нужно преобразовать это в PySpark.
Я хочу запустить линейную регрессию в PySpark и указать, что перехват должен быть 0. У меня есть 2 входных столбца (INPUT1 и INPUT2) и выходной столбец (OUTPUT ) на моем data_input и дополнительно хотел бы применить ограничение, согласно которому взвешивание INPUT1 = 1 - взвешивание INPUT2.
Мой код в настоящее время выглядит следующим образом, но я не вижу, где я могу добавить необходимые настройки:
vectorAssembler=VectorAssembler(inputCols=['INPUT1', 'INPUT2'], outputCol='features')
regression_df=vectorAssembler.transform(data_input)
regression_df=regression_df.select(['features', 'OUTPUT'])
lr=LinearRegression(featuresCol='features', labelCol='OUTPUT')
model=lr.fit(regression_df)
print("Coefficients: " + str(model.coefficients))
print("Intercept: +str(model.intercept))