У меня есть сценарий, в котором я должен подготовить несколько фреймов данных, которые будут использоваться для объединений.
Эти фреймы данных должны быть сформированы путем выбора нескольких столбцов в источнике.Исходные файлы основаны на паркетах, и в каждой папке с паркетными файлами есть внешняя таблица.
Мой вопрос заключается в том, что из приведенных ниже двух дает наилучшую производительность?
Dataframe frame1 = spark.read.fomat (parquet) .load (parquet-location) .select (несколько столбцов здесь)
Dataframe frame2 = spark.sql (выберите несколько столбцов здесь из HIVEDB.Table_upon_parquet_files)
Какой кадр данных будет создаваться быстрее ??Frame1 или Frame2.Если один лучше, чем другой, почему?Пожалуйста, объясните.