Question

У меня есть сценарий, в котором я должен подготовить несколько фреймов данных, которые будут использоваться для объединений.

Эти фреймы данных должны быть сформированы путем выбора нескольких столбцов в источнике.Исходные файлы основаны на паркетах, и в каждой папке с паркетными файлами есть внешняя таблица.

Мой вопрос заключается в том, что из приведенных ниже двух дает наилучшую производительность?

Dataframe frame1 = spark.read.fomat (parquet) .load (parquet-location) .select (несколько столбцов здесь)

Dataframe frame2 = spark.sql (выберите несколько столбцов здесь из HIVEDB.Table_upon_parquet_files)

Какой кадр данных будет создаваться быстрее ??Frame1 или Frame2.Если один лучше, чем другой, почему?Пожалуйста, объясните.

Spark создает фрейм данных - из таблицы улья или из файла паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark создает фрейм данных - из таблицы улья или из файла паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы