Вопросы с тегом паркет

0 голосов

1 ответ

Как работает предикатный pushdown?

Может ли кто-нибудь объяснить на примерах, как именно работает предикатный pushdown?

hey_you / 15 февраля 2019

0 голосов

1 ответ

Хранить ndarrays в паркет через Uber / Petastorm?

Можно ли хранить N-мерные массивы в Parquet через uber / petastorm ?

Leo Gallucci / 15 февраля 2019

0 голосов

1 ответ

Как отформатировать поле метки времени при загрузке файла паркета в красное смещение?

У меня есть куча файлов паркета с полями меток времени в другом формате.Я хотел бы унифицировать...

Rohan Nayak / 13 февраля 2019

0 голосов

1 ответ

Панды для паркет НЕ в файловую систему, но получить содержимое результирующего файла в переменной

Существует несколько способов, с помощью которых возможен переход от панд к паркету.например,...

RenPen / 13 февраля 2019

0 голосов

2 ответов

Запись файлов паркета в S3 с использованием AWS Java Lamda

Я пишу AWS-лямбду, которая читает готовые объекты от Kinesis и хотела бы записать их в s3 в виде...

danieln / 13 февраля 2019

0 голосов

1 ответ

Как сохранить данные из панд в фрейме Azure с помощью Python?

Я хочу сохранить обработанные данные в фрейме данных pandas в лазурные капли в формате файла...

Bhanuday Birla / 13 февраля 2019

0 голосов

2 ответов

Как записать логический тип TIMESTAMP (INT96) в паркет, используя ParquetWriter?

У меня есть инструмент, который использует org.apache.parquet.hadoop.ParquetWriter для...

James Wierzba / 12 февраля 2019

0 голосов

1 ответ

В чем выгода сжать ORC или паркет

Файлы ORC и Parquet сами по себе (без других параметров сжатия, например, snappy) имеют эффекты...

Tom / 12 февраля 2019

0 голосов

0 ответов

Оптимизация запросов IMPALA с использованием статистики паркета

В IMPALA мы можем оптимизировать запросы, создавая таблицы, задавая сортировку файлов по некоторым...

Raju / 12 февраля 2019

0 голосов

2 ответов

Как / Где я могу записать данные временных рядов?Как паркет форматировать на Hadoop или HBase, Cassandra?

У меня есть данные датчика в реальном времени.Моя основная цель - сохранить необработанные данные.Я...

ogma / 11 февраля 2019

0 голосов

0 ответов

Дата последнего обновления паркета

Мои искры. Фреймы данных импортируются из файлов паркета в ADLS.Есть ли способ найти дату...

Dan / 10 февраля 2019

0 голосов

1 ответ

Дрель не может прочитать большинство столбцов в Паркет, сгенерированных Spark

Я использую Drill 1.15 в распределенном режиме только поверх узлов данных (3 узла с 32 ГБ памяти...

Avik Aggarwal / 09 февраля 2019

0 голосов

1 ответ

Записывать данные постепенно в файл паркета

Чтобы записать данные из кадра данных pandas в паркет, я делаю следующее: df = pd.DataFrame(DATA)...

Miguel A. Friginal / 09 февраля 2019

0 голосов

0 ответов

Записать python в паркет (без использования dataframe?)

Есть ли способ написать файл паркета в python без необходимости сначала создавать фрейм данных?Это...

Miguel A. Friginal / 09 февраля 2019

0 голосов

1 ответ

Как вы запрашиваете файл паркета, используя parquet-mr?

У меня есть файл паркета, хранящийся в AWS S3, который я хочу запросить.Я хочу получить...

J Hamm / 08 февраля 2019

0 голосов

0 ответов

Оптимальный способ расчета разницы между значениями столбцов в двух кадрах данных Spark, считанных из файлов Parquet

У меня есть два файла Parquet, которые мне нужно прочитать, чтобы вычислить разницу в одном из...

Krzysztof Słowiński / 08 февраля 2019

0 голосов

1 ответ

Друидский паркет плохая производительность при приеме внутрь

Есть ли причины, по которым прием Друида должен быть медленным при приеме данных с паркета?Мы...

Vijay Muvva / 07 февраля 2019

0 голосов

0 ответов

np.Nan значение в паркетном столе

У меня есть фрейм данных pandas, в котором все столбцы являются строками, а один столбец является...

Venkata Gogu / 07 февраля 2019

0 голосов

1 ответ

Как переименовать столбцы AWS Athena с помощью исходного файла паркетного файла?

У меня есть данные, загруженные в папку S3 Bucket в виде нескольких файлов паркета.После загрузки...

Swapnil / 06 февраля 2019

0 голосов

0 ответов

Java Spark sql Dataset <Row>написать паркет

При записи набора данных в паркет произошла следующая ошибка. data.write()

Sanket M / 06 февраля 2019

0 голосов

0 ответов

«Недопустимый начальный байт» при чтении файла паркета с использованием Python pandas

Я пытаюсь использовать pandas для чтения файла паркета и получаю следующую ошибку:...

Ori N / 05 февраля 2019

0 голосов

2 ответов

Как настроить доступ S3 для org.apache.parquet.avro.AvroParquetReader?

Я некоторое время боролся с этим и хотел поделиться своим решением.AvroParquetReader - прекрасный...

jd_free / 04 февраля 2019

0 голосов

0 ответов

Spark and Parquet Predicate Pushdown для ежедневных дельт

Было предложено хранилище данных, основанное на Spark на AWS (возможно, Glue ETL, но, возможно,...

rabinnh / 04 февраля 2019

0 голосов

1 ответ

несовместимая схема при чтении паркета и экспорте из Vertica

Я заметил странное поведение при экспорте данных из Vertica и попытке прочитать их позже с паркетом...

Dmitriy Apollonin / 04 февраля 2019

0 голосов

1 ответ

Непрерывная обработка паркетных файлов как потоков данных в API DataStream от Flink

У меня есть паркетный файл на HDFS.Ежедневно перезаписывается новым.Моя цель состоит в том, чтобы...

Olivier Solliec / 04 февраля 2019