Я вижу странное поведение при попытке выполнить EXPORT TO PARQUET из Vertica на локальный диск.
Смотрите пример:
Когда я делаю
EXPORT TO PARQUET (directory = '/data') over (partition by install_date)
AS select field1, field2 from table where install_date >= 'some_date';
Вертика говорит:
Rows Exported
---------------
16 405 136
Но когда я читаю результат паркет (используя Pyarrow или Spark), я получаю только 2 522 845 строк. оо
Размер каталога составляет около 59 млн.
После нескольких часов тестирования я обнаружил, что если я выполняю ту же команду, но с предложением limit с огромным большим значением, это работает!
EXPORT TO PARQUET (directory = '/data') over (partition by install_date)
AS select field1, field2 from table where install_date >= 'some_date' limit 10000000000;
Затем Vertica экспортирует то же число строк 16 405 136, а паркет имеет такое же количество строк! И размер каталога составляет около 350 млн.
Есть идеи, почему?
Спасибо.