впервые используя Spark SQL. У меня есть DF со следующими столбцами 'weet_date', 'user_screen_name', 'user_id_str'. Моя цель состоит в том, чтобы выбрать все user_id_str и user_screen_names, которые твитнули в 5 разных днях (tweet_date).
Мой код в настоящее время выглядит так, но я считаю, что это неправильно.
task12=spark.sql("SELECT DISTINCT user_id_str, user_screen_name FROM tweet2 WHERE (user_id_str)>=5")
Когда я заменяю
WHERE (user_id_str)>=5
#to
WHERE (tweet_date)>=5
мой вывод df пуст
Любая помощь очень ценится