Я не могу найти библиотеку для использования PAM (K-medoids) в Pyspark.
Я нашел это в Scala: https://gist.github.com/erikerlandson/c3c35f0b1aae737fc884
И эта проблема в Spark, которая была решена в 2016 году: https://issues.apache.org/jira/browse/SPARK-4510 https://github.com/apache/spark/pull/3382
Но, похоже, он не работает, и это не включено в документацию по mllib: http://spark.apache.org/docs/2.0.0/api/python/pyspark.mllib.html#module-pyspark.mllib.clustering
Кто-нибудь знает какую-нибудь библиотеку для PAM в Pyspark?
Спасибо
Ваш лучший выбор - адаптировать эту реализацию Python в Scala, чтобы вы заранее оперировали разделами RDD и распределенными вычислениями. https://github.com/letiantian/kmedoids/blob/master/kmedoids.py