Можно использовать эти форматы без Hadoop, но простота этого зависит от языковой привязки.
Например, чтение / запись файлов Parquet на автономных машинах может быть очень громоздким с привязкой к языку Java (которая даже называется parquet-mr
, где mr обозначает MapReduce), поскольку она в значительной степени основана на классах Hadoop. Обычно они предоставляются на пути к классам кластера Hadoop, но менее доступны на отдельных машинах.
(Хотя parquet-mr
является в основном библиотекой Java, она также содержит некоторые инструменты, которые пользователи могут запускать на своем локальном компьютере. Чтобы обойти эту проблему, модуль parquet-tools
parquet-mr
содержит профиль компиляции, который называется local
, который упаковывает зависимости Hadoop вместе со скомпилированным инструментом, однако это относится только к parquet-tools
, и вам нужно скомпилировать его самостоятельно, чтобы выполнить локальную сборку.)
Привязка языка Python, с другой стороны, очень проста в настройке и прекрасно работает и на автономных машинах. Вы можете использовать либо высокоуровневый интерфейс pandas , либо фактические реализации pyarrow / fastparquet напрямую.