Как нормализовать векторы в искре, используя scala? - PullRequest
0 голосов
/ 09 октября 2019

У меня есть 9 файлов паркета, которые содержат 2 столбца (идентификатор, функции) и несколько строк. Я хочу вычислить значение z-показателя, используя (x - среднее) / stddev). набор данных состоит из 20 миллионов записей. каждый файл выглядит как изображение Мой код

    val result1 = sorted.map(_.split(",")(0)).cache
    val count = result.count
    val mean = result.sum / count
    val devs = result.map(score => (score - mean) * (score - mean))
    val stddev = Math.sqrt(devs.sum / count)
    val zscore = sorted.map(x => math.round((x.toDouble - mean)/stddev))

Как рассчитать z-показатель для огромных данных? Спасибо

...