Вопросы с тегом паркет

1 голос

0 ответов

PySpark не записывает статистику для столбцов TimeStamp и Decimal в формате Parquet

Я пытаюсь сгенерировать файлы Parquet с помощью Pyspark.Я обнаружил, что в метаданных...

Coolnerd / 28 марта 2019

0 голосов

1 ответ

Как я могу загрузить файл паркета построчно

Чтобы сэкономить место на моем ноутбуке, я сохранил довольно большой набор данных в виде паркетных...

osterburg / 28 марта 2019

0 голосов

0 ответов

Можете ли вы удалить UUID в разделенных паркетных файлах?

Мы храним некоторые данные в многораздельных паркет-файлах для клиента. Хотя это работает без...

BossBolognese / 27 марта 2019

0 голосов

1 ответ

AWS Glue Bookmark производит дубликаты

Я отправляю скрипт Python (фактически, pyspark) в Glue Job для обработки файлов паркета и...

Vzzarr / 27 марта 2019

0 голосов

1 ответ

инкрементное задание sqoop не выполняется из-за исключения org.kitesdk.data.DatasetOperationException

Я пытаюсь импортировать данные из оракула в таблицу улья, используя инкрементное задание sqoop,...

Prabhanj / 27 марта 2019

1 голос

2 ответов

В каком формате экспортировать фрейм данных Pandas при сохранении типов данных?Не CSV;SQLite?Паркет?

Мой рабочий процесс обычно включает загрузку некоторых данных, обычно из файлов CSV, в кадр данных...

Pythonista anonymous / 25 марта 2019

1 голос

2 ответов

Пробел в имени столбца вызывает исключение, в то время как паркет используется для сжатия

Я получаю ошибку ниже при вставке данных в таблицу формата паркета с именем столбца, имеющим пробел

Nagaraj Vittal / 25 марта 2019

0 голосов

1 ответ

Данные есть в HDFS, но не извлекаются из таблицы улья

Я загрузил запись из таблицы кустов через программу spark, данные успешно загружены в HDFS, но...

Kanagasubramanian / 25 марта 2019

0 голосов

1 ответ

Как выбрать 13-значный столбец метки времени из файла паркета, преобразовать его в дату и сохранить в виде фрейма данных?

Поскольку я новичок в Apache-методах Spark и Scala, я хочу выполнить следующие задачи. -Читать...

ADARSH K / 25 марта 2019

0 голосов

0 ответов

AWS Glue - avro to parquet - Склеиваю работу, получая пустую рамку из каталога

Я использую AWS Glue Crawler для сканирования грубых 170 ГБ avro-данных для создания таблицы...

Percolator / 24 марта 2019

0 голосов

1 ответ

Изменить имя столбца таблицы в формате паркета Hadoop

У меня есть таблица с колонками a, b, c. Хранить данные на hdfs как паркет, можно ли изменить...

Evyatar / 24 марта 2019

0 голосов

0 ответов

Создать таблицу Hive на основе схемы файла Parquet

Итак, у меня есть каталог с около 600 паркетными файлами, и с помощью parquet-tools я извлек схему...

crystyxn / 23 марта 2019

0 голосов

1 ответ

Преобразование строки паркет в метку времени в улье

У меня есть паркетные файлы, сгенерированные некоторым кодом.Я создал DDL для этих данных, добавил...

Dinesh Namburi / 23 марта 2019

0 голосов

0 ответов

Почему категоризация Dask DataFrame, созданного из файла Parquet, резко увеличивает его размер?

Вот архетипический сценарий: Я создаю Dask DataFrame из набора файлов Parquet, написанных...

James Cropcho / 22 марта 2019

0 голосов

0 ответов

Панды dtypes теряются при хранении с паркетом

Я напишу паркетный файл моего фрейма данных для последующего использования.Информация о типе в...

Eqomatic / 22 марта 2019

0 голосов

2 ответов

Dask Parquet загрузка файлов со схемой данных

Это вопрос, связанный с этим сообщением . Я экспериментирую с файлами Dask и Parquet. Я загрузил...

AJK / 22 марта 2019

0 голосов

1 ответ

OffsetIndex в паркете 1.11.0

Начиная с паркета 1.10.0, паркет вводит две новые индексные структуры: ColumnIndex и OffsetIndex

Liqun Li / 22 марта 2019

0 голосов

1 ответ

Новое в Pyspark - импорт CSV и создание файла паркета со столбцами массива

Я новичок в Pyspark, и я дергал себя за волосы, пытаясь достичь чего-то, что я считаю довольно...

MGK / 22 марта 2019

0 голосов

1 ответ

Сгладить файл паркета с вложенными массивами и StructType Spark Scala

Я стремлюсь эффективно сгладить файл паркета в Spark с помощью Scala.Мне было интересно, какой...

Defcon / 20 марта 2019

2 голосов

1 ответ

Avro vs Parquet в облачном хранилище Google, используя преобразование потока данных Google

Использовал сервис Google Dataflow для пакетной загрузки тех же 10 тыс. Json-записей, поступающих...

Amogh Antarkar / 19 марта 2019

0 голосов

1 ответ

Как я могу записать значение NULL в паркет, используя org.apache.parquet.hadoop.ParquetWriter?

У меня есть инструмент, который использует org.apache.parquet.hadoop.ParquetWriter для...

James Wierzba / 19 марта 2019

0 голосов

0 ответов

Ошибка записи файла паркета из JDBC Dataframe в AWS Glue Spark

Пытаюсь прочитать данные JDBC из базы данных SAP HANA с помощью Spark JDBC и записать то же самое,...

kalyan chakravarthy / 19 марта 2019

1 голос

1 ответ

Почему страница словаря смещена в 0 для кодировки `plain_dictionary`?

Паркет создан Spark v2.4 Parquet-mr v1.10 n = 10000 x = [1.0, 2.0, 3.0, 4.0, 5.0, 5.0, None] * n y...

colinfang / 18 марта 2019

0 голосов

1 ответ

Apache Parquet для хранения данных?

По ссылке sql-data-sources-parquet Ниже приведен фрагмент кода, в котором хранится формат данных,...

user3198603 / 18 марта 2019

4 голосов

1 ответ

Можем ли мы использовать CBO Spark (Оптимизатор затрат) с собственным паркетом или в фрейме данных в памяти?

Скажи, что я хочу объединить 3 таблицы A, B, C с внутренним объединением и C очень маленьким....

Simon / 18 марта 2019