Воспроизведение K-средних результатов в Spark ML - PullRequest
0 голосов
/ 28 января 2020

У меня проблема с воспроизводимыми результатами алгоритмов кластеризации с библиотекой Spark ML.

Я использую кластеризацию K-средних.

В случае K-средних известно, что эта проблема может быть решена путем:

  • исправления начальных центров кластеров
  • увеличения количества итераций

Я сделал последнее и все еще получаю разные результаты.

Во-первых, мне не хватает функциональности SparkML Kmeans, которая позволяла бы пользователю настраивать пользовательские центры кластеров, так как здесь есть только две опции, как здесь указано как установить начальные центры Spark Kmeans : a) «random» и b) «kmeans //» для инициализации центров кластеров.

У вас есть какие-нибудь советы, которые могут решить эту проблему?

...