получить количество уникальных значений в столбце pyspark - PullRequest
0 голосов
/ 11 марта 2020

У меня есть фрейм данных PySpark со столбцом URL. Все, что я хочу знать, это сколько разных ценностей. Мне просто нужно количество общих значений. Я попробовал следующее

df.select("URL").distinct().show()

Это дает мне список и количество всех уникальных значений, и я только хочу знать, сколько их в целом. Я хочу что-то вроде этого - col (URL) имеет x различных значений.

1 Ответ

2 голосов
/ 11 марта 2020

Используйте distinct().count() для получения count of distinct значений.

df.select("URL").distinct().count()

Example:

#sample data
df=spark.createDataFrame([(1,),(2,),(1,)],['id'])

df.show()
#+---+
#| id|
#+---+
#|  1|
#|  2|
#|  1|
#+---+

#to list out 20 distinct values
df.select('id').distinct().show()
#+---+
#| id|
#+---+
#|  1|
#|  2|
#+---+

#to get count of distinct values
df.select('id').distinct().count()
#2
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...