Ускорьте повторяющиеся KMeans в PySpark - PullRequest
1 голос
/ 06 февраля 2020

В настоящее время у меня есть фрейм данных, состоящий из миллиарда строк, в которых время коммутирования составляет 1 миллион человек. Есть два столбца, один - уникальный идентификатор каждого человека, а другой - время.

Я хочу выполнить кластеризацию KMeans для каждого человека на основе времени его коммутирования. Выбор времени коммутирования одного человека и выполнение Kmeans очень быстро, но сделать это миллион раз займет очень много времени.

То, что я сейчас делаю:

for i in distinct_commuter_id:
    df_input = df.filter(df['id']==i)
    ... # run KMeans on df_input

Любой предложения будут с благодарностью.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...