Фитинг линейной регрессии висит на длительный период времени - Dask-ML - PullRequest
0 голосов
/ 06 декабря 2018

Мне интересно, сделал ли я что-то здесь не так, я не смог найти документацию, объясняющую, какие существуют предварительные условия для настройки линейной регрессии с использованием Dask ML.

У меня есть dask dataframeс именем Facts,

def train_model(facts, features_cols, target):
"""
Train linear regression model from fact table
 Parameters
---------
facts: Dask Dataframe 
    Set of data to be used for features and target
feature_cols: Array<column_names>
    Array of column names to be loaded as features
target: string<column_name>
    Name of column to be used as target

Returns
-------
model: Linear Regresssion
    Linear Regression model trained on features

"""
features = facts[features_cols].values
target = facts[[target]].values
model = LinearRegression()
model.fit(features, target)
return model

Если я вызываю compute для функций и цели и использую LinearRegression из sklearn, он вычисляется в ожидаемое время.В Dask ML создается впечатление, что в память загружен абсурдно большой объем данных (на порядок больше, чем сумма всех используемых данных).Я абсолютный нуби с этим, так что я чего-то упускаю?Нужно ли вычислять значения перед отправкой их в линейную регрессию?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...