Spark ML KMeansModel.computeCost () - использовать расстояние поверхности сферы вместо плоскости? - PullRequest
0 голосов
/ 14 сентября 2018

Из Spid Scala 2.2 apidocs:

def computeCost(dataset: Dataset[_]): Double
Computes the sum of squared distances between the input points and their corresponding cluster centers.

Я бы хотел, чтобы computeCost () измерял расстояния на поверхности Земли (широта, долгота), используя метод Haversine или что-то в этом роде. Могу ли я переопределить поведение в Spark ML или я должен вернуться к реализации Spark MLib RDD?

...