У меня есть некоторый фрейм данных, который имеет миллионы строк. Мне нужно выбрать все строки из первых 100 идентификаторов в другом фрейме данных
Я знаю, как получить top column_ids
df.groupBy("some_column_id").count()
Это вернет идентификаторы столбцов и их количество, теперь мне нужно отфильтровать строки этих верхних 100 идентификаторов в другом фрейме данных.
Моя примерная таблица ниже, так как у пользователя 123 и 678 больше строк, чем у других, я хочу, чтобы эти два были в отдельном фрейме данных
Как это сделать?