Spark создает фрейм данных - из таблицы улья или из файла паркета - PullRequest
0 голосов
/ 13 июня 2019

У меня есть сценарий, в котором я должен подготовить несколько фреймов данных, которые будут использоваться для объединений.

Эти фреймы данных должны быть сформированы путем выбора нескольких столбцов в источнике.Исходные файлы основаны на паркетах, и в каждой папке с паркетными файлами есть внешняя таблица.

Мой вопрос заключается в том, что из приведенных ниже двух дает наилучшую производительность?

Dataframe frame1 = spark.read.fomat (parquet) .load (parquet-location) .select (несколько столбцов здесь)

Dataframe frame2 = spark.sql (выберите несколько столбцов здесь из HIVEDB.Table_upon_parquet_files)

Какой кадр данных будет создаваться быстрее ??Frame1 или Frame2.Если один лучше, чем другой, почему?Пожалуйста, объясните.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...