Хранить ndarrays в паркет через Uber / Petastorm? - PullRequest
0 голосов
/ 15 февраля 2019

Можно ли хранить N-мерные массивы в Parquet через uber / petastorm ?

1 Ответ

0 голосов
/ 04 марта 2019

Да.Petastorm предоставляет пользовательский слой кодеков и расширение схемы поверх стандартного формата Apache Parquet.N-мерные массивы / тензоры будут сериализованы в двоичные поля двоичных объектов.С точки зрения пользователя, они будут выглядеть как собственные типы, в зависимости от среды, с которой вы работаете (чистый Python / pyspark: numpy / array, tf.Tensor в Tensorflow или Tensors torch в PyTorch).

Здесь есть несколько простых для подражания примеров: https://github.com/uber/petastorm/tree/master/examples/hello_world/petastorm_dataset

...