Нужно ли записывать данные в формате avro и parquet в инфраструктуру hadoop? - PullRequest
1 голос
/ 21 июня 2019

Я изучал плюсы и минусы использования авро, паркета и других источников данных для проекта.Если я получаю входные данные от других групп людей, которые не используют Hadoop, смогут ли они предоставить эти входные данные в формате avro / parquet?До сих пор я читал об этих форматах только в сфере инфраструктуры Hadoop, поэтому мне интересно, насколько трудно будет людям, которые просто используют Oracle / SQL, предоставлять данные в этом формате.

1 Ответ

3 голосов
/ 21 июня 2019

Можно использовать эти форматы без Hadoop, но простота этого зависит от языковой привязки.

Например, чтение / запись файлов Parquet на автономных машинах может быть очень громоздким с привязкой к языку Java (которая даже называется parquet-mr, где mr обозначает MapReduce), поскольку она в значительной степени основана на классах Hadoop. Обычно они предоставляются на пути к классам кластера Hadoop, но менее доступны на отдельных машинах.

(Хотя parquet-mr является в основном библиотекой Java, она также содержит некоторые инструменты, которые пользователи могут запускать на своем локальном компьютере. Чтобы обойти эту проблему, модуль parquet-tools parquet-mr содержит профиль компиляции, который называется local, который упаковывает зависимости Hadoop вместе со скомпилированным инструментом, однако это относится только к parquet-tools, и вам нужно скомпилировать его самостоятельно, чтобы выполнить локальную сборку.)

Привязка языка Python, с другой стороны, очень проста в настройке и прекрасно работает и на автономных машинах. Вы можете использовать либо высокоуровневый интерфейс pandas , либо фактические реализации pyarrow / fastparquet напрямую.

...