У меня проблема с воспроизводимыми результатами алгоритмов кластеризации с библиотекой Spark ML.
Я использую кластеризацию K-средних.
В случае K-средних известно, что эта проблема может быть решена путем:
- исправления начальных центров кластеров
- увеличения количества итераций
Я сделал последнее и все еще получаю разные результаты.
Во-первых, мне не хватает функциональности SparkML Kmeans, которая позволяла бы пользователю настраивать пользовательские центры кластеров, так как здесь есть только две опции, как здесь указано как установить начальные центры Spark Kmeans : a) «random» и b) «kmeans //» для инициализации центров кластеров.
У вас есть какие-нибудь советы, которые могут решить эту проблему?