Когда я очищаю большие данные с помощью панд, у меня есть два метода: один метод - использовать @pandas_udf
из pyspark 2.3+
очистки данных, другой - конвертировать sdf
в pdf
на toPandas()
, а затем использоватьпанды, чтобы убрать.
Я запутался, чем эти методы отличаются?
Я надеюсь, что помощник мог объяснить с распределенного, скоростного и других направлений.