Взвешенные k-средства в питоне - PullRequest
0 голосов
/ 11 июня 2018

Прочитав этот пост здесь о повторяющихся значениях в кластеризации k-средних, я понял, что не могу просто использовать уникальные точки для кластеризации.

https://stats.stackexchange.com/questions/152808/do-i-need-to-remove-duplicate-objects-for-cluster-analysis-of-objects

У меня более 10000000 очков, но только 8000 уникальных.Поэтому я изначально думал, что для его ускорения я буду использовать только уникальные очки.Похоже, это плохая идея.

Чтобы сократить время вычислений, в этом посте предлагается добавлять веса к каждой точке.Как это можно реализовать в python?

1 Ответ

0 голосов
/ 11 июня 2018

Я думаю, что пост предлагает работать со средневзвешенным значением.

Вы можете создать новый набор данных из старого, и новый набор данных будет иметь дополнительный атрибут для каждой точки, ее частоту (т.е. этовес).

Каждый раз, когда вы вычисляете новый центроид для каждого кластера, возьмите средневзвешенное значение всех точек этого кластера (вместо вычисления простого среднего значения всех точек).

PS: манипулирование набором данных опасно.Я бы распараллелил код, если бы вычислительные затраты были основным фактором.

...