Я тестирую большой набор данных (1,5 ТБ, 5,5b записей) в Афинах в форматах как паркет, так и c Мой первый тест - простой, запрос подсчета -
SELECT COUNT(*) FROM events_orc
SELECT COUNT(*) FROM events_parquet
Файл паркета занимает половину, чтобы выполнить этот запрос как файл или c. Но одна вещь, которую я заметил, заключается в том, что при выполнении подсчета для файла паркета он возвращает 0kb
как отсканированные байты, где с или c он возвращает 78gb
. Это имеет смысл для паркета, потому что счетчик находится в мета, нет необходимости сканировать байты. У или c также есть мета с числом, но, похоже, он не использует эту мету для определения количества этих файлов.
Почему Афина не использует метаданные в или c файл для определения количества, где он явно работает с паркетными файлами?