Внедрение K-medoids в Писпарке - PullRequest
0 голосов
/ 26 апреля 2019

Я не могу найти библиотеку для использования PAM (K-medoids) в Pyspark.

Я нашел это в Scala: https://gist.github.com/erikerlandson/c3c35f0b1aae737fc884

И эта проблема в Spark, которая была решена в 2016 году: https://issues.apache.org/jira/browse/SPARK-4510
https://github.com/apache/spark/pull/3382

Но, похоже, он не работает, и это не включено в документацию по mllib: http://spark.apache.org/docs/2.0.0/api/python/pyspark.mllib.html#module-pyspark.mllib.clustering

Кто-нибудь знает какую-нибудь библиотеку для PAM в Pyspark?

Спасибо

1 Ответ

1 голос
/ 04 мая 2019

Ваш лучший выбор - адаптировать эту реализацию Python в Scala, чтобы вы заранее оперировали разделами RDD и распределенными вычислениями. https://github.com/letiantian/kmedoids/blob/master/kmedoids.py

...