Вопросы с тегом паркет

0 голосов

0 ответов

Ошибка при загрузке файла формата паркета в Amazon Redshift с помощью команды копирования и файла манифеста

Я пытаюсь загрузить файл паркета, используя файл манифеста и получаю сообщение об ошибке ниже....

SKB / 09 июля 2019

0 голосов

1 ответ

Нужно ли помещать файл в датафрейм панды для форматирования паркета?

Я новичок в использовании spark, и кажется, что нам нужно поместить файл в формате pandas, чтобы...

user11754833 / 08 июля 2019

0 голосов

0 ответов

Spark структурированные потоковые мойки

Мы запускаем процесс структурированной потоковой передачи с помощью spark 2.4.2, который считывает...

Irisshain / 08 июля 2019

0 голосов

0 ответов

искра - сохранить DataFrame в пакетном виде в S3 (паркет)

Есть способ создать блок данных с помощью некоторого ключа (для предотвращения перемешивания) и...

Ohad Mata / 08 июля 2019

1 голос

0 ответов

Java: чтение каталога разделенных файлов паркета

Я создал вывод Parquet от Apache Spark, следовательно, каталог с несколькими файлами, по одному на...

Werner Daehn / 07 июля 2019

0 голосов

1 ответ

Прочитать пустой файл паркета с помощью процессора FetchParquet и получить схему

Процессор Nifi FetchParquet не наследует схему из файла Parquet без записей. Мы пытаемся...

jugi / 05 июля 2019

0 голосов

0 ответов

Spark завершает работу, но RStudio показывает исключение заголовка GC

Мы новички в представлении искровых работ от RStudio с помощью sparklyr. Мы видим длинные, большие...

echedey lorenzo / 04 июля 2019

1 голос

0 ответов

В Apache Spark `bucketBy`, как вы генерируете 1 файл на корзину вместо 1 файла на корзину на раздел?

Я пытаюсь использовать функцию Spark bucketBy для довольно большого набора данных. dataframe

cozos / 04 июля 2019

0 голосов

0 ответов

Почему Spark-драйвер так сильно кэширует hadoop LocationFileStatus при запуске SQL на паркете

Я запускаю искровую работу на кластере пряжи, читаю данные из файла паркета и записываю обратно...

moyiguke / 04 июля 2019

0 голосов

1 ответ

Как запустить аналитику для файлов Paraquet в среде, отличной от Hadoop

Мы генерируем файлы Parquet, используя apache Nifi в среде, отличной от hadoop.Нам нужно запустить...

Sumanth / 03 июля 2019

0 голосов

0 ответов

hive / spark ddl на паркетных файлах - «ИСПОЛЬЗОВАНИЕ ПАРКЕТА» или «ХРАНЕНИЕ КАК ПАРКЕТ», что быстрее?

При создании DDL куста / искры для файлов паркета, «ИСПОЛЬЗОВАНИЕ ПАРКЕТА» или «ХРАНЕНИЕ КАК...

tooptoop4 / 03 июля 2019

0 голосов

2 ответов

Как разделить большой файл паркета на несколько паркетов и сохранить их в разных путях по столбцу времени

Мой файл sparquet вот так идентификатор, имя, дата 1, а, 1980-09-08 2, б, 1980-09-08 3, с,...

free斩 / 03 июля 2019

2 голосов

1 ответ

Производительность сжатия паркета сгруппирована против плоских данных

Не могу получить прямой ответ из сети. Рассмотрим следующий сценарий данных: У меня есть данные,...

RefiPeretz / 02 июля 2019

1 голос

1 ответ

Проблемы с сериализацией при подключении к кластеру Spark

У меня есть приложение Spark, написанное на Scala, которое пишет и читает файлы Parquet. Приложение...

Bertrand / 01 июля 2019

0 голосов

1 ответ

Таблица DESCRIBE ничего не возвращает

Согласно документам эта команда должна возвращать структуру таблицы: DESCRIBE schema.<table>...

rudolfdobias / 30 июня 2019

0 голосов

0 ответов

Какие изменения схемы нарушены в parquet-protobuf?

Я пытаюсь понять, что является серьезными изменениями в схеме паркета.Я использую protobuf для...

Maulik Soneji / 30 июня 2019

1 голос

1 ответ

Drill - проблемы производительности ввода-вывода Parquet с BLOB-объектами Azure или файлами Azure

Проблема: При чтении из хранилища Azure производительность чтения паркета в Drill, по-видимому, в...

rudolfdobias / 29 июня 2019

2 голосов

1 ответ

Spark (2.3) не может определить новые столбцы в таблице Parquet, добавленные с помощью команды Hive Alter Table

У меня есть таблица Hive Parquet, которую я создаю, используя Spark 2.3 API df.saveAstable....

user2717470 / 29 июня 2019

0 голосов

1 ответ

Замена недопустимых символов в именах вложенных атрибутов искры

Здесь есть несколько сообщений об обработке недопустимых символов на первом уровне, но не о...

LuckyGuess / 29 июня 2019

5 голосов

2 ответов

Размер файла паркета, пожарный шланг против искры

Я генерирую файлы Parquet двумя способами: Kinesis Firehose и Spark.Они оба записаны в одну...

jph / 29 июня 2019

0 голосов

1 ответ

как создать тип REPEATED в схеме файла паркета с помощью avro?

Мы создаем конвейер потока данных, мы будем читать данные из postgres и записывать их в файл...

Michael Julian / 28 июня 2019

0 голосов

1 ответ

Панды - написать паркет и оставить столбец в десятичном виде

Я пытаюсь записать файл партера в s3, чтобы выполнить копирование в Redshift / Файл паркет...

placplacboom / 27 июня 2019

0 голосов

0 ответов

Apache Flink - чтение файлов паркета из HDFS через каждые N часов

У меня есть несколько паркетных файлов, которые я прочитал в потоковом приложении Flink, чтобы...

AsadSMalik / 26 июня 2019

0 голосов

1 ответ

Как использовать Pyarrow для достижения эффекта потоковой записи

Данные, которые у меня есть, являются своего рода потоковыми данными.И я хочу сохранить их в одном...

Zichu Lee / 25 июня 2019

0 голосов

0 ответов

Как преобразовать ORC файлы / таблицу в файл Parquet на месте?

У меня в каталоге много файлов ORC. Я создал Внешнюю таблицу в Databricks, указывающую место, где...

Anirban Nag 'tintinmj' / 24 июня 2019