Question

У меня большой набор данных (75 миллионов строк) состоит из 12 столбцов. Строки повторяются с одинаковыми значениями, за исключением двух последних столбцов, которые составляют распределение вероятностей

Как мы видим в этом фрагменте, относительно первых 10 столбцов, строк равны по значениям, а последние 2 (value_count, value) являются вероятностным распределением для строк. Я хочу объединить эти строки в одну строку на основе медианы распределения вероятностей value_count, значение

Christopher · Answer 1 · 20 января 2020

РЕДАКТИРОВАТЬ: редактируется после комментария.

Вы можете легко получить медиану, используя summary.

df_result = your_table.select("value_count", "value").summary("50%")

В результате получается кадр данных с одной строкой и 2 столбцами. Вы можете присоединить его к исходному фрейму данных, если хотите: your_table.select("col1", .. , "coln").distinct().join(df_result, "outer")

В качестве альтернативы есть функции approx_quantile и percentile_approx, которые могут выполнять работу без использования объединения (как описано выше)

Агрегирование на основе медианы распределения вероятностей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Агрегирование на основе медианы распределения вероятностей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов