Я обнаружил, что использовать DF проще, чем DS - последние все еще подлежат разработке imho. Комментарий к pyspark действительно по-прежнему актуален.
RDD по-прежнему удобны для zipWithIndex, чтобы поместить как c непрерывные порядковые номера в элементы.
DF / DS имеют столбцовое хранилище и улучшенную поддержку Catalyst (Optimizer).
Кроме того, могут быть проблемы с RDD, например, JOIN, требующий ключа, значения и многошагового присоединяйтесь, если вам нужно присоединиться к более чем 2 таблицам. Они наследие. Проблема в том, что inte rnet полон наследия и, следовательно, RDD jazz.