Вопросы с тегом паркет

0 голосов

0 ответов

Вложенный JSON в паркет

Рассмотрим вложенный JSON, имеющий следующий формат: { "f1": "v1",...

gr8one / 22 октября 2018

0 голосов

2 ответов

Как написать разделенный файл Parquet, используя Pandas

Я пытаюсь записать кадр данных Pandas в многораздельный файл: df.to_parquet('output

Ivan / 22 октября 2018

0 голосов

0 ответов

Spark 2.x - сжатие gzip и snappy для файлов паркета

Я (впервые) пытаюсь перераспределить данные, с которыми работает моя команда, для повышения...

p_lnhrt / 22 октября 2018

0 голосов

1 ответ

Apache Parquet для плоских структур данных

Паркет создается с нуля с учетом сложных вложенных структур данных и использует алгоритм...

michal.dul / 20 октября 2018

0 голосов

1 ответ

Найти кодек сжатия, используемый для файла hadoop

Имеется сжатый файл, написанный на платформе hadoop, в одном из следующих форматов: Avro Parquet...

revy / 20 октября 2018

0 голосов

1 ответ

Hive Паркетный стол комментарий

Я хочу добавить комментарий к каждому столбцу в таблице Hive Parquet.Я пытаюсь добавить комментарий...

Prashant Agarwal / 19 октября 2018

0 голосов

0 ответов

Управление паркетной схемой

Я недавно начал работать над новым проектом, в котором мы используем Spark для записи / чтения...

unknown / 19 октября 2018

0 голосов

1 ответ

Преобразование сжатого zip csv в паркет с использованием pyspark

У меня есть сжатый zip csv, хранящийся на S3.Я хотел бы преобразовать этот файл в формат паркета,...

user2752159 / 18 октября 2018

0 голосов

0 ответов

Можно ли переопределить автоматическое назначение uuid для имен файлов при записи наборов данных с pyarrow.parquet?

Скажем, у меня есть пандас DataFrame df, который я хотел бы сохранить на диске как набор данных с...

XiUpsilon / 17 октября 2018

0 голосов

1 ответ

Как прочитать метаданные файла Parquet из IBM Cloud Object Storage в Python?

Как прочитать метаданные файла Parquet (имена столбцов с типами) из IBM COS в Python? Единственный...

gmlvsv / 16 октября 2018

0 голосов

0 ответов

Искра: LeaseExpiredException при записи большого фрейма данных в файлы паркета

У меня большой фрейм данных, который я записываю в паркетные файлы в HDFS.Получение из журнала...

Anirban / 16 октября 2018

0 голосов

0 ответов

Сжатие широких паркетных файлов прямая ошибка буферной памяти (пригодность паркета для широких столов)

У меня есть сценарий использования, в котором я передаю потоковые файлы (более 50 тыс. Столбцов),...

oh54 / 15 октября 2018

0 голосов

1 ответ

Выбор одного столбца не уменьшает объем данных, отсканированных в AWS Athena

Я экспериментирую с запросами Athena о данных, хранящихся в паркете в s3.Я добавил раздел в столбец...

Daniel Crowley / 15 октября 2018

0 голосов

0 ответов

Как реализовать пример бумаги Dremel в пирору?

Я пытаюсь использовать следующую примерную схему документа из бумаги Dremel Dremel: интерактивный...

Lubomir Chorbadjiev / 15 октября 2018

0 голосов

0 ответов

Spark - невозможно рассчитать минимальную / максимальную статистику паркета для столбцов

Я включил свойство "spark.parquet.strings.signed-min-max.enabled" для работы с искрой.При проверке...

Kans / 14 октября 2018

0 голосов

2 ответов

Ошибка при использовании искры 'save' не поддерживает разбивку

У меня есть DataFrame, который я пытаюсь partitionBy столбца, отсортировать его по этому столбцу и...

Kans / 14 октября 2018

0 голосов

1 ответ

Как создать паркетный стол в Hive 3.1 через Spark 2.3 (pyspark)

Проблемы при создании / загрузке паркетного стола из Spark Сведения об окружающей среде:...

Shan / 12 октября 2018

0 голосов

1 ответ

Как настроить формат файла результатов AWS Athena

В настоящее время результаты запроса Athena представлены в формате tsv в S3.Есть ли способ...

Sumanth Sai / 11 октября 2018

0 голосов

0 ответов

Spark потребовалось 20 ГБ памяти для записи 140 МБ файла Parquet

У меня есть искровое задание, которое читается в меньшем файле паркета и вносит некоторые изменения...

Lunjie Jin / 11 октября 2018

0 голосов

1 ответ

Как связать два API C #, которые ожидают, что вы предоставите поток?

Я работаю с двумя потоковыми API C #, один из которых является источником данных , а другой...

Techrocket9 / 10 октября 2018

0 голосов

1 ответ

Создать паркетный файл в Scala без Spark

Я пытаюсь записывать потоковые JSON-сообщения напрямую в Parquet, используя Scala (без Spark).Я...

Explorer / 09 октября 2018

0 голосов

1 ответ

Весенняя партия читается из паркетной доски

Я пытаюсь прочитать файл паркета в Spring Batch Job и записать его в JDBC.Есть ли какой-нибудь...

user3259978 / 08 октября 2018

0 голосов

0 ответов

Стадия искры застревает в ожидании

Я выполняю довольно простую работу Spark: прочитайте пару наборов данных Parquet (10-100 ГБ) каждый...

pay / 08 октября 2018

0 голосов

0 ответов

Выделите пул памяти Apache Arrow во внешней памяти

Я пытаюсь реализовать приложение (на C ++), использующее Apache Arrow, которое берет память из...

Jiayuan Chen / 06 октября 2018

0 голосов

1 ответ

Dask DataFrame to_parquet возвращает байты вместо записи в файл

Можно ли записать dask / pandas DataFrame в паркет, а затем вернуть строку байтов?Я знаю, что это...

Vladyslav Moisieienkov / 05 октября 2018