Spark очень эффективно считывает набор из миллиарда наборов данных в течение 4 секунд, но подсчет различного значения в df довольно медленный и менее эффективный, и это занимает более 5 минут даже для небольшого набора данных, у меня есть пробовал эти подходы:
value1 = df.where(df['values'] == '1').count()
или
df.groupBy("values").count().orderBy("value_count").show()
оба возвращают правильный результат, но здесь суть время.
Я знаю, что count является ленивым оператором, но существует ли альтернативный подход для решения этой проблемы?
ТИА