Для структурированных данных вам не нужно использовать СДР. Вы можете использовать Dataframe или Dataset для Scala и Java. Для Python вам нужно использовать Dataframe. Пожалуйста, ознакомьтесь с официальным руководством.
Для неструктурированных данных вам все равно нужно будет использовать СДР.
Dataframe, как правило, обеспечивает самую быструю производительность (согласно книге Матеи).
Синтаксис dataframe (с использованием Spark SQL) может поддерживать почти все функции, подобные SQL. Вы также можете использовать Pandas, см. Pandas guide .
Project Koala позволяет использовать синтаксис panda в Spark. Я предпочитаю использовать это вместо Pandas. Вот руководство коала .