Вычисление процента от общего количества для groupBy с использованием pyspark - PullRequest
0 голосов
/ 11 сентября 2018

У меня есть следующий код в pyspark, в результате чего в таблице показаны различные значения для столбца и их количество.Я хочу иметь другой столбец, показывающий, какой процент от общего числа представляет каждая строка.Как мне это сделать?

difrgns = (df1
           .groupBy("column_name")
           .count()
           .sort(desc("count"))
           .show())

Заранее спасибо!

1 Ответ

0 голосов
/ 12 сентября 2018

Пример в качестве альтернативы, если вам неудобно использовать Windowing, так как в комментарии есть и лучший путь:

# Running in Databricks, not all stuff required
from pyspark.sql import Row
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.types import *
#from pyspark.sql.functions import col

data = [("A", "X", 2, 100), ("A", "X", 7, 100), ("B", "X", 10, 100),
        ("C", "X", 1, 100), ("D", "X", 50, 100), ("E", "X", 30, 100)]
rdd = sc.parallelize(data)

someschema = rdd.map(lambda x: Row(c1=x[0], c2=x[1], val1=int(x[2]), val2=int(x[3])))

df = sqlContext.createDataFrame(someschema)

tot = df.count()

df.groupBy("c1") \
  .count() \
  .withColumnRenamed('count', 'cnt_per_group') \
  .withColumn('perc_of_count_total', (F.col('cnt_per_group') / tot) * 100 ) \
  .show()

возвращается:

 +---+-------------+-------------------+
| c1|cnt_per_group|perc_of_count_total|
+---+-------------+-------------------+
|  E|            1| 16.666666666666664|
|  B|            1| 16.666666666666664|
|  D|            1| 16.666666666666664|
|  C|            1| 16.666666666666664|
|  A|            2|  33.33333333333333|
+---+-------------+-------------------+

Я сосредотачиваюсь на Scala, и с этим, кажется, все проще. Тем не менее, предлагаемое решение с помощью комментариев использует Window, что я и сделал бы в Scala с over ().

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...