В настоящее время у меня есть фрейм данных, состоящий из миллиарда строк, в которых время коммутирования составляет 1 миллион человек. Есть два столбца, один - уникальный идентификатор каждого человека, а другой - время.
Я хочу выполнить кластеризацию KMeans для каждого человека на основе времени его коммутирования. Выбор времени коммутирования одного человека и выполнение Kmeans очень быстро, но сделать это миллион раз займет очень много времени.
То, что я сейчас делаю:
for i in distinct_commuter_id:
df_input = df.filter(df['id']==i)
... # run KMeans on df_input
Любой предложения будут с благодарностью.