Используйте distinct().count()
для получения count of distinct
значений.
df.select("URL").distinct().count()
Example:
#sample data
df=spark.createDataFrame([(1,),(2,),(1,)],['id'])
df.show()
#+---+
#| id|
#+---+
#| 1|
#| 2|
#| 1|
#+---+
#to list out 20 distinct values
df.select('id').distinct().show()
#+---+
#| id|
#+---+
#| 1|
#| 2|
#+---+
#to get count of distinct values
df.select('id').distinct().count()
#2