В чем разница между RDD и Dataframe в Spark - PullRequest
2 голосов
/ 21 января 2020

Я перешел по ссылке В чем разница между RDD и Dataframe в Spark?

  • Обязательно ли создавать RDD для выполнения операции, мы можем начать работа с фреймом данных. Есть ли какое-либо преимущество для СДР по сравнению с Dataframe

  • Можем ли мы запустить Pandas, numpy функциональность фрейма данных на искре. Для numpy np.where и для pandas как df.groupby ['']. Agg ()

1 Ответ

4 голосов
/ 21 января 2020

Для структурированных данных вам не нужно использовать СДР. Вы можете использовать Dataframe или Dataset для Scala и Java. Для Python вам нужно использовать Dataframe. Пожалуйста, ознакомьтесь с официальным руководством.

Для неструктурированных данных вам все равно нужно будет использовать СДР.

Dataframe, как правило, обеспечивает самую быструю производительность (согласно книге Матеи).

Синтаксис dataframe (с использованием Spark SQL) может поддерживать почти все функции, подобные SQL. Вы также можете использовать Pandas, см. Pandas guide .

Project Koala позволяет использовать синтаксис panda в Spark. Я предпочитаю использовать это вместо Pandas. Вот руководство коала .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...