Афина (Улей / Престо) Паркет против ИЛИ C В Query Query - PullRequest
1 голос
/ 30 апреля 2020

Я тестирую большой набор данных (1,5 ТБ, 5,5b записей) в Афинах в форматах как паркет, так и c Мой первый тест - простой, запрос подсчета -

SELECT COUNT(*) FROM events_orc
SELECT COUNT(*) FROM events_parquet

Файл паркета занимает половину, чтобы выполнить этот запрос как файл или c. Но одна вещь, которую я заметил, заключается в том, что при выполнении подсчета для файла паркета он возвращает 0kb как отсканированные байты, где с или c он возвращает 78gb. Это имеет смысл для паркета, потому что счетчик находится в мета, нет необходимости сканировать байты. У или c также есть мета с числом, но, похоже, он не использует эту мету для определения количества этих файлов.

Почему Афина не использует метаданные в или c файл для определения количества, где он явно работает с паркетными файлами?

...