Pyspark: подсчитайте ячейку в столбце с условием - PullRequest
0 голосов
/ 06 августа 2020

Предположим, у меня есть этот фрейм данных ..

TEST_schema = StructType([StructField("col1", IntegerType(), True),\
                          StructField("col2", IntegerType(), True)])
TEST_data = [(5,-1),(4,-1),(3,3),(2,2),(1,-1),(0,-1),(0,-1),(0,2),(0,-1)]
rdd3 = sc.parallelize(TEST_data)
TEST_df = sqlContext.createDataFrame(TEST_data, TEST_schema)
TEST_df.show() 

+----+----+
|col1|col2|
+----+----+
|   5|  -1|
|   4|  -1|
|   3|   3|
|   2|   2|
|   1|  -1|
|   0|  -1|
|   0|  -1|
|   0|   2|
|   0|  -1|
+----+----+

Я хочу подсчитать количество «-1» специально после col1 == 1.

поэтому, когда после col1 == 1 df.count() что вернет 4.

1 Ответ

0 голосов
/ 06 августа 2020

этот код может быть вам полезен,

from pyspark.sql.functions import *
from pyspark.sql.types import *

test_schema = StructType([StructField("col1", IntegerType(), True),\
                          StructField("col2", IntegerType(), True)])
test_data = [(5,-1),(4,-1),(3,3),(2,2),(1,-1),(0,-1),(0,-1),(0,2),(0,-1)]
rdd3 = sc.parallelize(test_data)
df = sqlContext.createDataFrame(test_data, test_schema)
df.show()


from pyspark.sql import functions as F
from pyspark.sql.window import Window

w = Window().orderBy(lit('A'))
df = df.withColumn("row_num", row_number().over(w))

w1 =Window.orderBy('row_num').rowsBetween(Window.currentRow,Window.unboundedFollowing)

df.withColumn('count', F.count(when(df.col2==-1,1)).over(w1)).show()
'''
+----+----+-------+-----+
|col1|col2|row_num|count|
+----+----+-------+-----+
|   5|  -1|      1|    6|
|   4|  -1|      2|    5|
|   3|   3|      3|    4|
|   2|   2|      4|    4|
|   1|  -1|      5|    4|
|   0|  -1|      6|    3|
|   0|  -1|      7|    2|
|   0|   2|      8|    1|
|   0|  -1|      9|    1|
+----+----+-------+-----+
'''
...