У меня есть 9 файлов паркета, которые содержат 2 столбца (идентификатор, функции) и несколько строк. Я хочу вычислить значение z-показателя, используя (x - среднее) / stddev). набор данных состоит из 20 миллионов записей. каждый файл выглядит как изображение Мой код
val result1 = sorted.map(_.split(",")(0)).cache
val count = result.count
val mean = result.sum / count
val devs = result.map(score => (score - mean) * (score - mean))
val stddev = Math.sqrt(devs.sum / count)
val zscore = sorted.map(x => math.round((x.toDouble - mean)/stddev))
Как рассчитать z-показатель для огромных данных? Спасибо