Вопросы с тегом паркет

0 голосов

0 ответов

Сохранение сериализованных данных Kafka Avro в файл паркета с использованием потоковой передачи Spark

Я создаю Кафку и искровой потоковый трубопровод.Здесь данные автоматически сериализуются с...

Madhusudhan / 24 мая 2018

0 голосов

0 ответов

AWS Glue: использование ResolveChoice для проецирования на метку времени поля при преобразовании в паркет

Попытка преобразовать серию сжатых gz в формат паркета. В процессах пытаются сделать какие-то...

RidinAGrvyTrain / 23 мая 2018

0 голосов

3 ответов

Формат файла паркета на S3: какой фактический файл паркета?

Scala 2.12 и Spark 2.2.1 здесь.Я использовал следующий код для записи содержимого DataFrame в S3:...

hotmeatballsoup / 22 мая 2018

0 голосов

0 ответов

Преобразование паркета из данных CSV

Не удалось заставить его выполнить преобразование data['date']= pd

Ajaxcbcb / 22 мая 2018

0 голосов

1 ответ

Хранить несколько информационных кадров различной ширины с паркетом?

Поддерживает ли Parquet хранение различных кадров данных различной ширины (числа столбцов) в одном...

Turo / 22 мая 2018

0 голосов

0 ответов

Файл паркета недоступен для записи после первого чтения с использованием PyArrow

Я пытаюсь прочитать файл паркета в pandas dataframe, выполнить некоторые манипуляции и записать его...

SSingh / 21 мая 2018

0 голосов

1 ответ

Создание таблицы AWS Athena из файла Parquet с массивом структур в виде столбца

Я пытаюсь создать таблицу AWS Athena из файла Parquet, хранящегося в S3, используя следующее...

Little Bobby Tables / 21 мая 2018

0 голосов

1 ответ

Hive SaveAsTable создает новый файл таблицы Parquet для каждого запуска

У меня есть следующий код Scala, который я использую для записи данных из файла json в таблицу в...

Neha / 21 мая 2018

0 голосов

1 ответ

Spark: Как прочитать файл Avro или Parquet как набор данных

Учитывая, что файлы Avro и Parquet содержат и данные, и схему для этих данных, то в Spark должна...

user1888243 / 20 мая 2018

0 голосов

1 ответ

Спарк думает, что я читаю DataFrame из файла Parquet

Spark 2.x здесь.Мой код: val query = "SELECT * FROM some_big_table WHERE something >...

hotmeatballsoup / 18 мая 2018

0 голосов

1 ответ

Спарк написать паркет на основе алфавитного разделения

Я много исследовал эту тему. У меня есть набор данных размером 3 ТБ. Ниже приведена схема данных...

Omkar / 17 мая 2018

0 голосов

1 ответ

Загружались ли данные с фреймов искры лениво?

Я хочу запустить sql для своих данных паркета в spark, используя следующий код, val parquetDF =...

Krishas / 17 мая 2018

0 голосов

0 ответов

HIVE: вставить перезаписать ошибку таблицы паркет

Я просто делаю простой запрос, подобный этому, но появляются некоторые исключения. insert overwrite...

vasili / 17 мая 2018

0 голосов

1 ответ

Паркет написать OutOfMemoryException на свечу

У меня около 8 миллионов строк данных и около 500 столбцов. Когда я пытаюсь записать его с помощью...

Joha / 17 мая 2018

0 голосов

1 ответ

Паркетный тип данных Issue

У меня есть куча файлов паркета, и я создал внешние таблицы, используя Impala's CREATE EXTERNAL...

Ponns / 17 мая 2018

0 голосов

1 ответ

Возможна ли гибкая схема в формате ORC или Parquet?

Мое Java-приложение потребляет данные в реальном времени, а затем публикует их в файл ORC на S3 ....

DJ180 / 17 мая 2018

0 голосов

1 ответ

Как прочитать данные за последние 3 дня из папки с паркетными файлами?

У меня есть папка с множеством паркетных файлов, имена которых следующие:...

Markus / 15 мая 2018

0 голосов

1 ответ

Работает ли снимок hdfs при добавлении данных?

Я понял, что снимок hdfs отслеживает добавленные или удаленные файлы из каталога.Каково поведение,...

djohon / 14 мая 2018

0 голосов

1 ответ

как прочитать файл hdfs с подстановочным знаком, используемым pyspark

Есть несколько путей к паркетному файлу: / A / B / C = 'str1' / д = 'ул' / A / B / C = 'str2' / д =...

Zhang Xin / 13 мая 2018

0 голосов

1 ответ

Spark - невозможно сохранить фрейм данных на диск

Я запускаю Spark в автономном режиме с каталогом Hive.Я пытаюсь загрузить данные из внешнего...

kirylm / 12 мая 2018

0 голосов

1 ответ

Эффективно объединить большие паркетные файлы

Я использую паркетные инструменты для объединения паркетных файлов.Но, похоже, что инструментам для...

Xitrum / 11 мая 2018

0 голосов

1 ответ

Как проверить столбцы при добавлении раздела куста?

У меня есть таблица улья, созданная так: CREATE EXTERNAL TABLE test_db.test( region STRING,...

jz999 / 11 мая 2018

0 голосов

2 ответов

Как прочитать файл паркета в R, не используя пакеты spark?

Я мог бы найти много ответов в Интернете, используя sparklyr или различные пакеты свечей, которые...

Gerg / 10 мая 2018

0 голосов

2 ответов

Удаление данных из паркета приводит к их * размеру * - почему?

Недавно мы обнаружили, что из-за проблемы в нашем ETL наши паркетные блоки содержали повторяющиеся...

Vitaliy / 10 мая 2018

0 голосов

0 ответов

Запуск параллельных потоков в задании PySpark

Я пытаюсь запустить параллельные потоки в задании на искру. Это работает без проблем, когда я...

Robin Tanner / 09 мая 2018