Вопросы с тегом паркет

1 голос

2 ответов

Передача SFTPFile-соединения Paramiko в качестве входных данных для dask.dataframe.read_parquet

Я пытался передать класс paramiko.sftp_file.SFTPFile вместо URL файла для pandas.read_parquet, и он...

Rahul / 24 июня 2019

1 голос

1 ответ

Как объединить небольшие паркетные файлы в HIVE

Как объединить небольшие файлы паркета в HIVE, когда ниже на месте. Разделы создаются динамически...

Deep / 24 июня 2019

1 голос

1 ответ

Vertica - Какая лучшая практика для экспорта в Паркет

У меня есть Vertica DB, которую предполагается использовать для моих «горячих» данных. Я понял, что...

T1234 / 23 июня 2019

1 голос

1 ответ

Нужно ли записывать данные в формате avro и parquet в инфраструктуру hadoop?

Я изучал плюсы и минусы использования авро, паркета и других источников данных для проекта.Если я...

Jonathan Myers / 21 июня 2019

3 голосов

1 ответ

Запись DataFrame в виде паркета создает пустые файлы

Я пытаюсь оптимизировать производительность для работы Spark, используя метод bucketing . Я читаю...

Niko / 19 июня 2019

0 голосов

2 ответов

Как прочитать большой файл паркета в виде нескольких кадров данных?

Я пытаюсь преобразовать большой файл паркета в CSV. Так как объем моей оперативной памяти...

Rahul / 18 июня 2019

1 голос

0 ответов

Загрузите секционированный (искровой) паркет на стол для больших запросов

У меня есть данные, записанные из spark, в файлы паркета в gcs, разбитые на столбец даты.Данные в...

Marcin / 18 июня 2019

0 голосов

1 ответ

Как ограничить количество элементов в столбце массива и / или общий размер в Афине / Престо?

Я просматривал документацию Athena и PrestoDB и не могу найти ссылку на ограничение количества...

jph / 17 июня 2019

1 голос

1 ответ

Используя PageIndex, почему паркет не пропускает ненужные страницы?

Используя parquet-mr@1.11.0, у меня есть такая схема: schema message page { required binary url...

Anthony / 17 июня 2019

1 голос

0 ответов

Столбец паркета не может быть преобразован: ожидаемый десятичный, найденный двоичный

Я использую Apache Nifi 1.9.2 для загрузки данных из реляционной базы данных в Google Cloud Storage

Jeroom Van Bever / 17 июня 2019

0 голосов

1 ответ

Файл паркета: какое оптимальное количество файлов для достижения минимального объема

Я записал фрейм данных в файл паркета, используя спарк, который имеет 100 подкаталогов (каждый...

david_js / 17 июня 2019

1 голос

1 ответ

Невозможно записать поток в паркетную раковину

Я работаю над Databricks, платформой обработки данных на основе Spark с HDFS-подобной файловой...

Alon / 14 июня 2019

0 голосов

1 ответ

загрузить файл паркета и сохранить то же количество разделов hdfs

У меня есть файл паркета /df, сохраненный в формате hdf с 120 разделами.Размер каждого раздела в...

Clay / 14 июня 2019

0 голосов

1 ответ

Как вывести файлы с паркетом с пачкой в спарк?

Фон У меня есть 8k паркетных файлов, представляющих таблицу, которую я хочу поместить в отдельный...

andersonbd1 / 14 июня 2019

1 голос

1 ответ

Запрос файла Parquet в HDFS с помощью Impala

Я пытаюсь прочитать файл паркета с помощью Impala. impala-shell> SELECT * FROM `/path/in/hdfs/*

BadrF / 14 июня 2019

0 голосов

0 ответов

Pyspark - отобразить функцию параллельно в списке ссылок

У меня есть папка с более чем 100000 "csv" файлами. К сожалению, эти CSV-файлы еще не в правильном...

Max / 14 июня 2019

0 голосов

1 ответ

Можем ли мы повторить поведение Spark .cache (), но вместо этого сохранить файл партера?

Скажем, у меня есть 4 блока инструкций искры, представленных как Dataframe A, B, C и D. Dataframe...

Simon / 14 июня 2019

0 голосов

1 ответ

Конвертировать Avro в Кафке в Паркет прямо в S3

У меня есть темы в Кафке, которые хранятся в формате Avro. Я хотел бы использовать всю тему...

NateH06 / 13 июня 2019

1 голос

1 ответ

Как сохранить спарк-фрейм в паркет без использования формата INT96 для столбцов меток времени?

У меня есть искровой фрейм данных, который я хочу сохранить как паркет, а затем загрузить его с...

Fabich / 13 июня 2019

1 голос

1 ответ

DataFrame.write.parquet - Parquet-файл не может быть прочитан HIVE или Impala

Я написал DataFrame с pySpark в HDFS с помощью этой команды: df.repartition(col("year"))\...

Markus / 13 июня 2019

0 голосов

1 ответ

Как удалить поля из многораздельной таблицы в Hive, хранящейся как паркет?

Я ищу способ изменить таблицу данных паркета в HIVE , чтобы удалить некоторые поля. Таблица...

josecarperez / 13 июня 2019

0 голосов

0 ответов

Как мне прочитать разделенные файлы паркета из s3, используя pyarrow?

Я пытаюсь прочитать каталог секционированного паркета, хранящийся в корзине s3. Ради этого вопроса...

Deepansh Khurana / 13 июня 2019

1 голос

1 ответ

Как справиться с небольшой проблемой файла в потоковой передаче с искрой?

У меня есть сценарий в моем проекте, где я читаю сообщения темы kafka, используя версию spark-sql-2

Shyam / 10 июня 2019

0 голосов

1 ответ

Использование предикатов для фильтрации строк из pyarrow.parquet.ParquetDataset

У меня есть набор данных для паркета, хранящийся на s3, и я хотел бы запросить определенные строки...

kluu / 10 июня 2019

0 голосов

1 ответ

Проблемы чтения фрейма данных PySpark в Pandas с колонками VectorUDT

У меня есть таблица PySpark, где многие столбцы имеют тип VectorUDT. Эти столбцы были созданы с...

Lowblow / 09 июня 2019