Я нашел этот билет apache-parquet https://issues.apache.org/jira/browse/PARQUET-686, который...
У меня есть 100 с паркетных файлов в S3, я хочу проверить, все ли паркетные файлы созданы правильно...
На официальном сайте Apache это официальное объяснение этого параметра : При значении true источник...
Теперь дана таблица улья со своей схемой, а именно: hive> show create table nba_player; OK...
Мне нужно постепенно загружать данные в Pandas из файлов Parquet, хранящихся в s3, я пытаюсь...
У меня есть pyspark Dataframe, который я создал с помощью метода rdd reduceByKey (поэтому есть...
У меня есть сотни тысяч небольших паркетных файлов, которые я пытаюсь регулярно читать в Spark. Мое...
Ответ на этот вопрос отличается от приведенного в посте выше Я получаю сообщение об ошибке pyspark
Наличие этого 12-байтового массива (int96) для отметки времени. [128 76 69 116 64 7 0 0 48 131 37...
У меня проблема с модулем pyspark sql. Я создал многораздельную таблицу и сохранил ее в виде файла...
Я читаю данные таблицы с сервера sql и сохраняю их как Dataframe в спринге. Я хочу записать df в...
У меня около 4 тысяч файлов Parquet, которые содержат большие вложенные объекты с ~ 250 различными...
У меня есть процесс, который читает таблицу кустов (parquet-snappy) и создает набор данных объемом...
Для разбора файла большего размера мне нужно последовательно записывать большое количество файлов...
Используя AWS Firehose, я конвертирую входящие записи в паркет. В одном примере у меня есть 150k...
У меня есть данные в файле Parquet и я хочу применить к нему пользовательскую схему. Мои исходные...
Я использую spark и мне нужно применить файлы cdc из реплики базы данных к файлу паркета, как...
У меня есть случай, когда мне нужно переместить данные из внутреннего кластера CDH в кластер AWS...
позвольте мне сначала начать с моего сценария: у меня есть большой массив данных, хранящийся в HDFS
Я создал веб-сканер в рамках своей диссертации.Это выполняется каждую минуту и получает данные -...
Я понимаю, что могу читать паркет в датафрейме, вопрос здесь в том, как читать только заголовок...
Я создал файл паркета с помощью Pyarrow, и его можно запросить с помощью Pyspark.Однако его нельзя...
Вариант использования следующий: Считывание данных из внешней базы данных и загрузка их в pandas...
Я нахожу только TextInputFormat и CsvInputFormat.Итак, как я могу использовать Apache Flink для...
У меня есть несколько паркетных файлов, которые я хотел бы вставить в красное смещение.Я не слишком...