Можно ли написать паркетную статистику с помощью pyarrow? - PullRequest
0 голосов
/ 29 сентября 2018

Эта опция существует в Spark, и я увидел, что пиарроу write_table() принимает ** kwargs, но после .pyx я не смог отследить его до таких вещей, как мин / макс.

Поддерживается ли это, и если да, то как это достигается?

1 Ответ

0 голосов
/ 30 сентября 2018

pyarrow уже записывает минимальную / максимальную статистику для файлов паркета по умолчанию.В pyarrow этого нет, поскольку базовая библиотека parquet-cpp записывает их всегда.На момент написания написано только минимальное и максимальное значения.Другие статистические данные не могут быть ни предоставлены, ни вычислены на лету с parquet-cpp.Когда они вам нужны, вы должны открыть проблему в (Py) Arrow tracker tracker и рассмотреть возможность добавления отсутствующего кода для этого.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...