как выбрать только до 70% перекодировок из dataframe в pyspark? - PullRequest
0 голосов
/ 04 июня 2019

У меня есть датафрейм, как показано ниже

+----+-----+--------------------+
|test|count|             support|
+----+-----+--------------------+
|   A|    5| 0.23809523809523808|
|   B|    5| 0.23809523809523808|
|   C|    4| 0.19047619047619047|
|   K|    2| 0.09523809523809523|
|   G|    2| 0.09523809523809523|
|   L|    1|0.047619047619047616|
|   D|    1|0.047619047619047616|
|   F|    1|0.047619047619047616|
+----+-----+--------------------+

Я хочу выбрать только топ 75% записей из данного фрейма данных в pyspark.ie

+----+-----+--------------------+
|test|count|             support|
+----+-----+--------------------+
|   A|    5| 0.23809523809523808|
|   B|    5| 0.23809523809523808|
|   C|    4| 0.19047619047619047|
|   K|    2| 0.09523809523809523|
|   G|    2| 0.09523809523809523|
|   L|    1|0.047619047619047616|
+----+-----+--------------------+

1 Ответ

0 голосов
/ 04 июня 2019

Вы можете рассчитать размер кадра данных, умножив его на 0.75 и использовать функцию limit. Это будет выглядеть так:

df75 = df.limit(int(df.count() * 0.75))
...