Вопросы с тегом паркет

0 голосов

1 ответ

Схема данных для хранения разнородных данных в файлах паркета в HDFS

Мы хотим хранить данные вроде: {"event":"click", "click_url":..., ..

Thomas Decaux / 21 сентября 2018

0 голосов

1 ответ

Как добавить поля в существующий паркет и создать новый паркет (Scala или python)

У меня есть существующие паркет (скажем, p1) для чтения в информационный кадр, а затем после...

mdivk / 20 сентября 2018

0 голосов

0 ответов

Может ли реализация Parquet-cpp выполнить Partition By при создании группы строк?

Я работаю с низкоуровневой реализацией Parquet-cpp, и когда я создаю группу строк из набора...

user1154422 / 20 сентября 2018

0 голосов

1 ответ

Scala :: Читать несколько файлов паркета с различной информацией о схеме

У меня есть требование, при котором я должен читать файлы паркета в разных каталогах в HDFS

AHS / 20 сентября 2018

0 голосов

1 ответ

Предоставление определенных пользователем имен столбцов в клею AWS

У меня много паркетных файлов.Мне нужно прочитать их через Amazon Glue, а затем предоставить имена...

Nipun / 20 сентября 2018

0 голосов

1 ответ

Измерение производительности Spark Sql

Я пытаюсь сравнить производительность между SparkSql на Parquet и Phoenix на HBase.Запрашиваемый...

Ayan Biswas / 20 сентября 2018

0 голосов

1 ответ

Как написать 128 МБ паркетный файл с помощью Spark

Чтение CSV-файлов, а затем запись в паркет. Можно ли сохранить 128 МБ паркетных блоков? Мой текущий...

Rolintocour / 20 сентября 2018

0 голосов

0 ответов

Лучший способ для паркет выводить на память

Общая цель: 1) Потоковые записи являются входными данными 2) Паркет возьмет х записей и создаст...

user1154422 / 19 сентября 2018

0 голосов

0 ответов

Redshift внешней таблицы из файла паркета с нулевыми значениями для строкового типа данных

Я создаю внешнюю таблицу в Redshift, указывая на файл Parquet, хранящийся в S3.Файл паркета...

Diego / 19 сентября 2018

0 голосов

0 ответов

Чтение паркетного файла, созданного с помощью предложения partionBy

У меня есть файл партера, который записывается в S3 с использованием предложения partitionBy, и это...

Python Newbie / 18 сентября 2018

0 голосов

0 ответов

ParquetDecodingException со структурированной потоковой передачей

У меня есть папка партера с многораздельными наборами данных, которые я пытаюсь прочитать и...

MojoJojo / 18 сентября 2018

0 голосов

1 ответ

Написание объекта protobuf в паркете с использованием Apache Beam

Я получаю данные protobuf из google pub / sub и десериализирую данные в объект типа Message. Итак,...

Md Shihab Uddin / 18 сентября 2018

0 голосов

1 ответ

Импорт географических данных в BigQuery с помощью Avro / Parquet

В настоящее время я использую файлы Parquet для импорта данных в BigQuery (GIS). Один из файлов...

mayr / 18 сентября 2018

0 голосов

1 ответ

отключение _spark_metadata в структурированном потоке в spark 2.3.0

Мое приложение структурированной потоковой передачи пишет в паркет, и я хочу избавиться от...

Ajith Kannan / 17 сентября 2018

0 голосов

1 ответ

Как читать и писать файлы паркета, используя Python версии 2.7 или менее

Я хотел прочитать -> обновить -> написать файлы паркета, используя версию Python 2.7 или менее

Shubham Shah / 17 сентября 2018

0 голосов

1 ответ

Переименуйте пробел в имени столбца в файле Parquet, используя spark sql

Я хочу показать содержимое файла паркета с помощью Spark Sql, но поскольку имена столбцов в файле...

Rahul Wagh / 16 сентября 2018

0 голосов

0 ответов

Импорт Sqoop --null-string & --null-non-string не работает для обоих --as-avrodatafile --as-parquetfile

Я вставил несколько записей в таблицу retail_db.customers для проверки импорта Sqoop --null-string...

BennetRyan / 15 сентября 2018

0 голосов

1 ответ

искры, читающие недостающие колонки в паркете

У меня есть паркетные файлы, которые мне нужно прочитать со спарк. В некоторых файлах отсутствует...

Nipun / 15 сентября 2018

0 голосов

1 ответ

pandas CSV для Parquet тип данных не установлен правильно, когда столбец не имеет значений

Я использую функцию read_csv фрейма данных pandas, и время от времени столбцы не имеют значений. В...

Ori N / 14 сентября 2018

0 голосов

1 ответ

Spark 2.3+ использовать parquet.enable.dictionary?

Я ищу документацию о том, как parquet.enable.dictionary будет использоваться в Spark (последняя...

Acid Rider / 14 сентября 2018

0 голосов

0 ответов

Формат файла паркета с вложенным типом данных

У меня есть таблица кустов с файлами в формате паркета. Одним из типов данных столбца является...

Shushant Arora / 14 сентября 2018

0 голосов

1 ответ

создание таблицы с ульем на основе паркетного файла

У меня есть файл паркета, хранящийся в hdfs, который называется small in path: / user / s / file

עמית וקנין / 13 сентября 2018

0 голосов

1 ответ

Стратегия разбиения в Паркет и Искра

У меня есть работа, которая читает CSV-файлы, конвертирует их во фреймы данных и записывает в...

Ayan Biswas / 12 сентября 2018

0 голосов

0 ответов

Ошибка чтения pyspark, когда я сохраняю фрейм данных в формате orc и читаю

У меня есть какой-то фрейм данных. Я сохраняю этот фрейм данных, используя следующий код: df.write

indra / 11 сентября 2018

0 голосов

1 ответ

Pandas Dataframe Паркет Типы данных?

Я пытаюсь использовать Pandas и Pyarrow для паркетных данных. У меня есть сотни файлов паркета,...

micah / 10 сентября 2018