Вопросы с тегом паркет

0 голосов

1 ответ

Как преобразовать мой JsonObject (com.google.gson.JsonObject) в тип GenericRecord (org.apache.avro.generic.GenericRecord)

Мы создаем конвейер потока данных, который получит JSON и запишет в файл паркета.мы используем...

vishnuixm / 29 декабря 2018

0 голосов

2 ответов

Несколько паркетных файлов при записи в Hive Table (в инкрементах)

Имея разделенную таблицу Hive CREATE EXTERNAL TABLE IF NOT EXISTS CUSTOMER_PART ( NAME string , AGE...

Joby / 28 декабря 2018

0 голосов

0 ответов

размер блока паркетного файла

Учитывая файл паркета, как можно определить размер блока, используемого для создания файла.Я...

user3821387 / 28 декабря 2018

0 голосов

1 ответ

Я пытаюсь сохранить в HDFS как паркетный файл из teradata с помощью версии TDCH jar 1.6

Я пытаюсь сохранить в HDFS как файл партера из teradata с помощью jar TDCH Я получаю исключение...

SR RAVINDRAN / 26 декабря 2018

0 голосов

1 ответ

Есть ли в pandas.read_csv эквивалент аргумента chunksize в виде пирообразного символа?

Я пытаюсь обработать большой файл (5 ГБ) в ОЗУ, но получаю сообщение об ошибке «Недостаточно...

Sjoseph / 25 декабря 2018

0 голосов

1 ответ

Чрезмерное использование памяти при использовании кадра данных dask, созданного из файла паркета

У меня есть файл паркета, который имеет 800K строк x 8,7K столбцов.Я загрузил его в файл данных...

Goodwin Chen / 25 декабря 2018

0 голосов

0 ответов

формат файла паркета для коннектора снежинки

Я пишу таблицу в Hadoop для Snowflake с помощью Spark Connector, но мой файл в Hadoop находится в...

sivaraj / 24 декабря 2018

0 голосов

3 ответов

Передача и запись паркета с питоном и пандами получили ошибку отметки времени

Я попытался выполнить concat () два файла паркета с пандами в python. Это может работать, но когда...

Neil Su / 22 декабря 2018

0 голосов

1 ответ

Задание SQL Pyspark замедлилось за счет чтения фиксированной ширины вместо паркета

У меня есть скрипт, который состоит из нескольких объединений и нескольких других основных операций

newsparkuser3984 / 21 декабря 2018

0 голосов

1 ответ

как получить имя файла паркета на основе данных в таблице

Я пытаюсь выяснить, в каком из множества файлов паркета хранятся данные в таблице для определенного...

knowone / 20 декабря 2018

0 голосов

1 ответ

Афина: используйте только подмножество полей JSON

У меня довольно сложные вложенные журналы JSON.Я хотел бы создать внешнюю таблицу Athena на основе...

Marina / 18 декабря 2018

0 голосов

4 ответов

улей внешний стол на паркете не выбирает данные

Я пытаюсь создать линию данных, в которой несоответствующие данные сохраняются в паркете, и я...

Ajith Kannan / 13 декабря 2018

0 голосов

1 ответ

Запрос Cassandra UDT через Spark SQL

Мы бы хотели запросить данные из БД Cassandra через SparkSQL .Проблема в том, что данные хранятся в...

Tomas Bartalos / 12 декабря 2018

0 голосов

0 ответов

Сохранение искрового фрейма данных с использованием функции из другого файла

Привет всем (начинающий pyspark здесь), у меня есть такой код в моей записной книжке jupyter: # df...

Breno Arruda / 11 декабря 2018

0 голосов

5 ответов

Клей закладки AWS

Как проверить, что мои закладки работают?Я обнаружил, что, когда я запускаю работу сразу после...

Jiew Meng / 11 декабря 2018

0 голосов

1 ответ

Pyarrow.lib.Schema vs. pyarrow.parquet.Schema

Когда я пытаюсь загрузить многораздельный файл паркета, некоторые схемы ошибочно выводятся из-за...

user1111 / 11 декабря 2018

0 голосов

0 ответов

Как разобрать большой текстовый файл в dataframe и записать в паркет с помощью Spark

В настоящее время я пытаюсь проанализировать большой текстовый файл, содержащий один столбец с...

Bob Grijpstra / 11 декабря 2018

0 голосов

0 ответов

Как я должен постепенно обновлять файлы паркета?

Так что у меня ежедневная работа, которая будет разбирать CSV на паркет.Что лучше всего делать:...

Jiew Meng / 11 декабря 2018

0 голосов

0 ответов

Преобразование данных из .dat в паркет с помощью Pyspark

Почему число строк отличается после преобразования из .dat в формат данных паркета с помощью...

Ramy / 10 декабря 2018

0 голосов

2 ответов

Строка Int96Value to Date

При чтении файла паркета (используя Scala) я считываю поле метки времени как: Int96Value{Binary{12...

user3821387 / 09 декабря 2018

0 голосов

0 ответов

Spark Streaming - определить формат входящего файла

Я работаю над фреймворком, который может принимать входные данные в виде набора файлов,...

Rajat Khandelwal / 08 декабря 2018

0 голосов

0 ответов

Какое потребление памяти для преобразования Apache Parquet?

Я конвертирую данные через Parquet-CPP, и я вижу постепенное увеличение потребления памяти для...

user1154422 / 07 декабря 2018

0 голосов

0 ответов

Spark Writing Parquet array <string>преобразуется в другой тип данных при загрузке в BigQuery

Spark Dataframe Schema: StructType( [StructField("a", StringType(), False),...

Ketan / 07 декабря 2018

0 голосов

1 ответ

Что делает MSCK REPAIR TABLE за кулисами и почему он такой медленный?

Я знаю, что MSCK REPAIR TABLE обновляет метастор с текущими разделами внешней таблицы. Для этого...

gdoron / 07 декабря 2018

0 голосов

1 ответ

Как сохранить метки времени в файлах паркета в C ++ и загрузить их в Python Pandas?

Я использую Apache Arrow в C ++ для сохранения коллекции временных рядов в виде файла паркета и...

motam79 / 07 декабря 2018