Я установил dask .Моя главная цель - кластеризация большого набора данных, но прежде чем начать работу над ним, я хочу сделать несколько тестов.Однако всякий раз, когда я хочу запустить фрагмент кода dask, это занимает слишком много времени, и в конце появляется ошибка памяти.Я попробовал их Пример спектральной кластеризации и короткий код ниже.
Как вы думаете, в чем проблема?
from dask.distributed import Client
from sklearn.externals.joblib import parallel_backend
from sklearn.datasets import make_blobs
from sklearn.cluster import DBSCAN
import datetime
X, y = make_blobs(n_samples = 150000, n_features = 2, centers = 3, cluster_std = 2.1)
client = Client()
now = datetime.datetime.now()
model = DBSCAN(eps = 0.5, min_samples = 30)
with parallel_backend('dask'):
model.fit(X)
print(datetime.datetime.now() - now)