Вопросы с тегом паркет

0 голосов

1 ответ

PySpark Записать двоичную колонку паркета со статистикой (подписано-min-max.enabled)

Я нашел этот билет apache-parquet https://issues.apache.org/jira/browse/PARQUET-686, который...

Nevermore / 05 ноября 2018

0 голосов

0 ответов

Как прочитать пример записи файла паркета в S3?

У меня есть 100 с паркетных файлов в S3, я хочу проверить, все ли паркетные файлы созданы правильно...

Alexsander / 05 ноября 2018

0 голосов

2 ответов

Что такое сводный файл Parquet?

На официальном сайте Apache это официальное объяснение этого параметра : При значении true источник...

Shaokai Li / 05 ноября 2018

0 голосов

0 ответов

Как вывести схему паркета по схеме таблицы улья, не вставляя никаких записей?

Теперь дана таблица улья со своей схемой, а именно: hive> show create table nba_player; OK...

JayZero / 05 ноября 2018

0 голосов

1 ответ

Как прочитать определенный список файлов паркета из s3, используя PyArrow?

Мне нужно постепенно загружать данные в Pandas из файлов Parquet, хранящихся в s3, я пытаюсь...

314159 / 03 ноября 2018

0 голосов

0 ответов

Сортировка данных после уменьшенияByKey

У меня есть pyspark Dataframe, который я создал с помощью метода rdd reduceByKey (поэтому есть...

Nevermore / 02 ноября 2018

0 голосов

1 ответ

Spark - при чтении множества небольших файлов паркетных файлов перед каждым состоянием отображается статус каждого файла

У меня есть сотни тысяч небольших паркетных файлов, которые я пытаюсь регулярно читать в Spark. Мое...

Sam / 02 ноября 2018

0 голосов

1 ответ

pyspark.sql.utils.AnalysisException: невозможно определить схему для паркета. Это должно быть указано вручную .;

Ответ на этот вопрос отличается от приведенного в посте выше Я получаю сообщение об ошибке pyspark

Taylrl / 02 ноября 2018

0 голосов

2 ответов

Приведите метку времени int96 от паркета к голангу

Наличие этого 12-байтового массива (int96) для отметки времени. [128 76 69 116 64 7 0 0 48 131 37...

ZAky / 01 ноября 2018

0 голосов

0 ответов

SparkSQL пытается прочитать данные с несуществующего пути

У меня проблема с модулем pyspark sql. Я создал многораздельную таблицу и сохранил ее в виде файла...

Abhishek Allamsetty / 31 октября 2018

0 голосов

0 ответов

Самый быстрый способ записать Df в файл паркета на s3

Я читаю данные таблицы с сервера sql и сохраняю их как Dataframe в спринге. Я хочу записать df в...

Sundeep Pidugu / 31 октября 2018

0 голосов

0 ответов

Тип данных приведения файлов Parquet в Apache Spark DataFrame

У меня около 4 тысяч файлов Parquet, которые содержат большие вложенные объекты с ~ 250 различными...

Dalphin / 30 октября 2018

0 голосов

1 ответ

Кеш Spark Dataset использует только одного исполнителя

У меня есть процесс, который читает таблицу кустов (parquet-snappy) и создает набор данных объемом...

Smiten Shah / 28 октября 2018

0 голосов

1 ответ

Утечка памяти из пиарроу?

Для разбора файла большего размера мне нужно последовательно записывать большое количество файлов...

Abel Riboulot / 27 октября 2018

0 голосов

1 ответ

Перераспределение созданных parquet-mr паркетов с помощью pyarrow / parquet-cpp увеличивает размер файла на x30?

Используя AWS Firehose, я конвертирую входящие записи в паркет. В одном примере у меня есть 150k...

micah / 26 октября 2018

0 голосов

1 ответ

Spark применяет пользовательскую схему к DataFrame

У меня есть данные в файле Parquet и я хочу применить к нему пользовательскую схему. Мои исходные...

rajcool111 / 26 октября 2018

0 голосов

1 ответ

Можно ли наносить CDC на файл паркета?

Я использую spark и мне нужно применить файлы cdc из реплики базы данных к файлу паркета, как...

user3153442 / 25 октября 2018

0 голосов

1 ответ

Может ли NiFi - SelectHiveQL считывать данные из таблицы на кластере CDH в формате паркета?

У меня есть случай, когда мне нужно переместить данные из внутреннего кластера CDH в кластер AWS...

Faisal Ahmed Siddiqui / 24 октября 2018

0 голосов

0 ответов

Pyspark & HDFS: добавление нового столбца данных в существующие файлы паркета в формате hdf.

позвольте мне сначала начать с моего сценария: у меня есть большой массив данных, хранящийся в HDFS

Werner / 24 октября 2018

0 голосов

0 ответов

Добавить в файл паркета с помощью Parquet.NET

Я создал веб-сканер в рамках своей диссертации.Это выполняется каждую минуту и получает данные -...

HakuHUN / 24 октября 2018

0 голосов

0 ответов

Как правильно читать заголовок паркета и разбирать схему с python?

Я понимаю, что могу читать паркет в датафрейме, вопрос здесь в том, как читать только заголовок...

mdivk / 23 октября 2018

0 голосов

1 ответ

Файл паркета запроса Apache-Drill: Ошибка в программе чтения паркетной записи

Я создал файл паркета с помощью Pyarrow, и его можно запросить с помощью Pyspark.Однако его нельзя...

Ray / 23 октября 2018

0 голосов

2 ответов

Pandas DataFrame для буфера паркета в памяти

Вариант использования следующий: Считывание данных из внешней базы данных и загрузка их в pandas...

JaviOverflow / 23 октября 2018

0 голосов

1 ответ

Как я могу использовать Apache Flink для чтения файла паркета в HDFS?

Я нахожу только TextInputFormat и CsvInputFormat.Итак, как я могу использовать Apache Flink для...

pijing / 23 октября 2018

0 голосов

0 ответов

Создание таблицы красного смещения ddl в соответствии с файлом паркета

У меня есть несколько паркетных файлов, которые я хотел бы вставить в красное смещение.Я не слишком...

nkramer52 / 23 октября 2018