Question

Я перешел по ссылке В чем разница между RDD и Dataframe в Spark?

Обязательно ли создавать RDD для выполнения операции, мы можем начать работа с фреймом данных. Есть ли какое-либо преимущество для СДР по сравнению с Dataframe
Можем ли мы запустить Pandas, numpy функциональность фрейма данных на искре. Для numpy np.where и для pandas как df.groupby ['']. Agg ()

Salim · Answer 1 · 21 января 2020

Для структурированных данных вам не нужно использовать СДР. Вы можете использовать Dataframe или Dataset для Scala и Java. Для Python вам нужно использовать Dataframe. Пожалуйста, ознакомьтесь с официальным руководством.

Для неструктурированных данных вам все равно нужно будет использовать СДР.

Dataframe, как правило, обеспечивает самую быструю производительность (согласно книге Матеи).

Синтаксис dataframe (с использованием Spark SQL) может поддерживать почти все функции, подобные SQL. Вы также можете использовать Pandas, см. Pandas guide .

Project Koala позволяет использовать синтаксис panda в Spark. Я предпочитаю использовать это вместо Pandas. Вот руководство коала .

В чем разница между RDD и Dataframe в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

В чем разница между RDD и Dataframe в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов