Вопросы с тегом паркет

0 голосов

2 ответов

Паркет значит три кодировки?

После прочтения документа я знаю, что означает каждая отдельная кодировка. Но я не могу понять,...

yunfan / 29 августа 2018

0 голосов

1 ответ

как конвертировать текстовый файл в паркет с помощью Java Spark

Я пытаюсь преобразовать текстовый файл в файл паркета. Я могу найти только «как конвертировать в...

Hưởng Lê Văn / 28 августа 2018

0 голосов

0 ответов

Ошибка открытия файла паркета на Amazon S3 с помощью pyarrow

У меня есть этот код, который должен считывать данные из одного столбца из файла паркета,...

Ori N / 28 августа 2018

0 голосов

2 ответов

Redshift показывает 0 строк для внешней таблицы, хотя данные доступны для просмотра в Афине

Я создал внешнюю таблицу в Redshift, а затем добавил некоторые данные в указанную папку S3. Я...

Ben / 28 августа 2018

0 голосов

1 ответ

Проблема при записи файла паркета

Я пытаюсь написать файл паркета, используя схему avro. Но всегда получаю эту проблему. Exception in...

chaitanya ekre / 27 августа 2018

0 голосов

0 ответов

Spark Parquet Writer настаивает на том, чтобы писать как BigDecimal независимо от внутренней и внешней схемы и приведения

Я имею дело с данными, в которых есть некоторые поля с данными, подобными этим: 123456789.00000 .....

javadba / 27 августа 2018

0 голосов

0 ответов

Не удалось открыть файл HDFS после загрузки данных из Spark

Я использую Java-Spark. Я загружаю Parquet данные в таблицу Hive следующим образом: ds.write()

Ya Ko / 26 августа 2018

0 голосов

1 ответ

Загрузка таблицы улья в формате Parquet

У меня есть ниже входной файл. Мне нужно загрузить этот файл в таблице улья в формате orc и parquet

Manikandan Duraisamy / 24 августа 2018

0 голосов

0 ответов

Запрос паркетного файла через Apache Parquet-Mr Java

В настоящее время я использую Apache Parquet-Mr (Java) для обработки файлов Parquet. Я...

PRANAV SHRINIVAS PALANDE / 24 августа 2018

0 голосов

1 ответ

Перезаписать файлы паркета из динамической рамки в AWS Glue

Я использую динамические кадры для записи файла паркета в S3, но если файл уже существует, моя...

Mateo Rod / 24 августа 2018

0 голосов

2 ответов

Какие типы сжатия поддерживаются в паркете?

Я писал данные на Hadoop и куст в формате паркета, используя спарк. Я хочу включить сжатие, но я...

User_qwerty / 06 июля 2018

0 голосов

1 ответ

Набор данных Spark в файле Hive vs Parquet

У меня есть 2 экземпляра для одинаковых данных. Таблица кустов myData в формате паркета Файл для...

boger / 05 июля 2018

0 голосов

1 ответ

Py4JJavaError: Произошла ошибка при вызове o26.parquet. (Чтение паркетного файла)

Пытается прочитать файл Parquet в PySpark, но получает Py4JJavaError. Я даже попытался прочитать...

Shirish Kadam / 05 июля 2018

0 голосов

0 ответов

как преобразовать таблицу улья из текста в паркет

Когда я пытался преобразовать текстовый файл формы таблицы улья в паркет, я обнаружил, что все...

Zied Hermi / 04 июля 2018

0 голосов

2 ответов

Пример чтения и записи файла паркета с использованием ParquetIO через Apache Beam

Кто-нибудь пробовал читать / записывать файл Parquet, используя Apache Beam. Поддержка добавлена...

Pari / 04 июля 2018

0 голосов

1 ответ

каталог перезаписи вставки куста, сохраненный как столбцы, созданные паркетом с именами по умолчанию

Если я выполню запрос на перезапись вставки улья, как показано ниже, для сохранения данных в...

urug / 02 июля 2018

0 голосов

1 ответ

Получение LeaseExpiredException в случайном потоке искры

у меня струится искра (2.1.1 с cloudera 5.12). с входной кафкой и выходной HDFS (в формате паркета)...

Yassine Jouini / 02 июля 2018

0 голосов

1 ответ

Форматы файлов Hadoop

Мне нужно подумать, как записать мои данные в Hadoop. Я использую Spark, я получил сообщение из...

Ya Ko / 01 июля 2018

0 голосов

1 ответ

использование памяти при индексации большого кадра данных dask на одном многоядерном компьютере

Я пытаюсь превратить дамп Wikipedia CirrusSearch в защищенный паркетом фрейм данных dask,...

Daniel Mahler / 29 июня 2018

0 голосов

0 ответов

Сохранять разделение данных при записи и повторном чтении в файл паркета

Когда я записываю фрейм данных с определенным разделением на диск в виде файла паркета, а затем...

werner / 28 июня 2018

0 голосов

1 ответ

Создайте внешнюю таблицу в Greenplum, используя файл паркета, хранящийся в s3

Я пытаюсь создать внешнюю таблицу в базе данных Greenplum на кластере Amazon ec2. Мой исходный файл...

mas / 28 июня 2018

0 голосов

1 ответ

Обработка полунегомогенных структурированных файлов с помощью Spark (CSV, Parquet)

У меня есть несколько неоднородных структурированных файлов, хранящихся в кластере Hadoop. Файлы...

Brausepaul / 27 июня 2018

0 голосов

1 ответ

Достигнуть параллелизма при сохранении в паркетный файл с разделами

При записи dataframe в parquet с использованием partitionBy: df.write.partitionBy("col1"...

javadba / 26 июня 2018

0 голосов

1 ответ

Firehose JSON -> S3 Parquet -> ETL Spark, ошибка: невозможно определить схему для Parquet

Кажется, что это должно быть легко, как будто это основной вариант использования этого набора...

Narfanator / 26 июня 2018

0 голосов

1 ответ

Инструмент Sqoop Merge для генерации вывода в одном файле

В настоящее время я выполняю следующую команду sqoop merge --new-data / home / part1 / part-m-00000...

Jack / 26 июня 2018