Мне интересно, сделал ли я что-то здесь не так, я не смог найти документацию, объясняющую, какие существуют предварительные условия для настройки линейной регрессии с использованием Dask ML.
У меня есть dask dataframeс именем Facts
,
def train_model(facts, features_cols, target):
"""
Train linear regression model from fact table
Parameters
---------
facts: Dask Dataframe
Set of data to be used for features and target
feature_cols: Array<column_names>
Array of column names to be loaded as features
target: string<column_name>
Name of column to be used as target
Returns
-------
model: Linear Regresssion
Linear Regression model trained on features
"""
features = facts[features_cols].values
target = facts[[target]].values
model = LinearRegression()
model.fit(features, target)
return model
Если я вызываю compute для функций и цели и использую LinearRegression
из sklearn, он вычисляется в ожидаемое время.В Dask ML создается впечатление, что в память загружен абсурдно большой объем данных (на порядок больше, чем сумма всех используемых данных).Я абсолютный нуби с этим, так что я чего-то упускаю?Нужно ли вычислять значения перед отправкой их в линейную регрессию?