Question

У меня есть 2 экземпляра для одинаковых данных.

Таблица кустов myData в формате паркета
Файл для паркета (не управляется Hive) в формате паркета

Рассмотрим следующий код:

val myCoolDataSet = spark
    .sql("select * from myData")
    .select("col1", "col2")
    .as[MyDataSet]
    .filter(x => x.col1 == "Dummy")

А вот этот:

val myCoolDataSet = spark
    .read
    .parquet("path_to_file")
    .select("col1", "col2")
    .as[MyDataSet]
    .filter(x => x.col1 == "Dummy")

Мой вопрос: что лучше с точки зрения производительности и количества отсканированных данных? Как спарк вычисляет это для 2 разных подходов?

stefanobaghino · Answer 1 · 05 июля 2018

Hive служит хранилищем метаданных о файле Parquet. Spark может использовать содержащуюся в нем информацию для выполнения интересных оптимизаций. Поскольку резервное хранилище одинаковое, вы, вероятно, не увидите большой разницы, но оптимизация на основе метаданных в Hive может дать преимущество.

Набор данных Spark в файле Hive vs Parquet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Набор данных Spark в файле Hive vs Parquet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы