Следующая команда pyspark
df = dataFrame.groupBy("URL_short").count().select("URL_short", col("count").alias("NumOfReqs"))
создала следующий результат.
|URL_short |NumOfReqs|
+-----------------------------------------------------------------------------------------+---------+
|http1 | 500 |
|http4 | 500 |
|http2 | 500 |
|http3 | 500 |
В исходном кадре данных dataFrame
у меня есть столбец с именем success
, тип которого - текст.Значение может быть "true"
или "false"
.
В результате я хотел бы иметь дополнительный столбец с именем, например, NumOfSuccess
, в котором подсчитываются элементы, имеющие запись "true"
в исходном столбце success
на категорию URL_short
.
Как я могу изменить
df = dataFrame.groupBy("URL_short").count().select("URL_short", col("count").alias("NumOfReqs"))
для вывода также столбца, удовлетворяющего условию success
== "true per
URL_short` категории?