Мы создаем конвейер потока данных, который получит JSON и запишет в файл паркета.мы используем...
Имея разделенную таблицу Hive CREATE EXTERNAL TABLE IF NOT EXISTS CUSTOMER_PART ( NAME string , AGE...
Учитывая файл паркета, как можно определить размер блока, используемого для создания файла.Я...
Я пытаюсь сохранить в HDFS как файл партера из teradata с помощью jar TDCH Я получаю исключение...
Я пытаюсь обработать большой файл (5 ГБ) в ОЗУ, но получаю сообщение об ошибке «Недостаточно...
У меня есть файл паркета, который имеет 800K строк x 8,7K столбцов.Я загрузил его в файл данных...
Я пишу таблицу в Hadoop для Snowflake с помощью Spark Connector, но мой файл в Hadoop находится в...
Я попытался выполнить concat () два файла паркета с пандами в python. Это может работать, но когда...
У меня есть скрипт, который состоит из нескольких объединений и нескольких других основных операций
Я пытаюсь выяснить, в каком из множества файлов паркета хранятся данные в таблице для определенного...
У меня довольно сложные вложенные журналы JSON.Я хотел бы создать внешнюю таблицу Athena на основе...
Я пытаюсь создать линию данных, в которой несоответствующие данные сохраняются в паркете, и я...
Мы бы хотели запросить данные из БД Cassandra через SparkSQL .Проблема в том, что данные хранятся в...
Привет всем (начинающий pyspark здесь), у меня есть такой код в моей записной книжке jupyter: # df...
Как проверить, что мои закладки работают?Я обнаружил, что, когда я запускаю работу сразу после...
Когда я пытаюсь загрузить многораздельный файл паркета, некоторые схемы ошибочно выводятся из-за...
В настоящее время я пытаюсь проанализировать большой текстовый файл, содержащий один столбец с...
Так что у меня ежедневная работа, которая будет разбирать CSV на паркет.Что лучше всего делать:...
Почему число строк отличается после преобразования из .dat в формат данных паркета с помощью...
При чтении файла паркета (используя Scala) я считываю поле метки времени как: Int96Value{Binary{12...
Я работаю над фреймворком, который может принимать входные данные в виде набора файлов,...
Я конвертирую данные через Parquet-CPP, и я вижу постепенное увеличение потребления памяти для...
Spark Dataframe Schema: StructType( [StructField("a", StringType(), False),...
Я знаю, что MSCK REPAIR TABLE обновляет метастор с текущими разделами внешней таблицы. Для этого...
Я использую Apache Arrow в C ++ для сохранения коллекции временных рядов в виде файла паркета и...