Вычисление среднего значения нескольких столбцов в PySpark при отбрасывании выбросов - PullRequest
0 голосов
/ 20 марта 2020

У меня есть PySpark DataFrame, который довольно большой (50000 столбцов, 1 миллион строк). Первый столбец - это метка, которую мы будем GROUP BY. Остальные из 49 000 столбцов имеют числовые значения c с плавающей запятой.

Я пытался запустить Pandas UDF и столкнулся с серьезными проблемами с производительностью. Набор данных никоим образом не может быть отфильтрован или уменьшен.

Я хочу обработать этот DataFrame в GROUP BY на один столбец и взять среднее значение для каждого другого столбца, отбрасывая при этом верхние и нижние 20% в каждой группе.

Какой самый эффективный способ сделать это?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...