Как запустить аналитику для файлов Paraquet в среде, отличной от Hadoop - PullRequest
0 голосов
/ 03 июля 2019

Мы генерируем файлы Parquet, используя apache Nifi в среде, отличной от hadoop.Нам нужно запустить аналитику файлов Parquet.

Помимо использования сред Apache, таких как Hive, Spark и т. Д. Есть ли у нас какой-либо BI-инструмент с открытым исходным кодом или инструмент отчетности, который может читать файлы Parquet, или есть ли другие способы обойти это?В нашей среде у нас есть инструмент отчетности Jasper.

Любые предложения приветствуются.Спасибо.

1 Ответ

1 голос
/ 05 июля 2019

Вы можете легко обрабатывать файлы Parquet в Python:

  • Для чтения / записи файлов Parquet вы можете использовать pyarrow или fastparquet .
  • Для анализа данных вы можете использовать Pandas (который может даже читать / писать Сам паркет, используя одну из реализаций, упомянутых в предыдущем пункте позадисцены).
  • Чтобы получить удобную интерактивную среду для исследования данных, вы можете использовать Jupyter Notebook .

Все это работает в среде, отличной от Hadoop..

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...