Этот оценщик не поддерживает рамки данных Dask - PullRequest
1 голос
/ 25 марта 2020

Я пытаюсь подобрать модель, используя Dask Framework, и оценщик, использованный в примере, говорит, что он не принимает Dask dataframe. Может кто-нибудь помочь мне, пожалуйста?

    from dask_ml.model_selection import IncrementalSearchCV
    from sklearn.linear_model import SGDClassifier

    ddx,ddy = dd.from_pandas(X,chunksize=100000), 
    dd.from_pandas(y,chunksize=100000)
    X_train, X_test, y_train, y_test = train_test_split(ddx, ddy)
    model = SGDClassifier(loss='log')
    params = { 'alpha': np.logspace(-2, 1, num=1000) }
    search = IncrementalSearchCV(model, params,
                         n_initial_parameters=10, random_state=0)
    search.fit(X_train, y_train, classes=classes)
    y_pred = search.predict_proba(X_test) 

Журнал ошибок: TypeError: Этот оценщик не поддерживает фреймы данных dask.

Появляется в строке поиска. Когда я заменяю на partal_fit , это работает, но затем такая же ошибка происходит в строке Forext_Proba .

1 Ответ

2 голосов
/ 25 марта 2020

IncrementalSearchCV в настоящее время требует Dask Arrays, возможно, вы можете преобразовать ваши данные .

Я открыл https://github.com/dask/dask-ml/issues/628 для поддержки данных. Буду признателен за помощь, если вы заинтересованы в работе над ним.

...