Привет, я хочу преобразовать CSV в формат паркета в автономной простой Java. нашел много решений,...
Перед тем, как я записываю фрейм данных в hdfs, я coalesce(1) заставляю его писать только один файл...
У меня есть паркет с несколькими обнуляемыми столбцами Int64. Когда я читаю таблицу паркета,...
Я провожу несколько экспериментов с размером блока (dfs.block.size) и размером группы строк...
Есть два стола Hive. Обе эти таблицы используют формат файла Parquet. Таблица A - с 5 столбцами...
У меня есть приложение, которое пытается прочитать группу csv из директории кластера и записать их...
Я скачал и собрал parquet-1.5.0 из https://github.com/apache/parquet-mr. Теперь я хочу запустить...
Я пытаюсь установить паркетные инструменты на машине с FreeBSD. Я клонировал этот репозиторий: git...
У меня есть CSV-файл, который выглядит примерно так: 39813458,13451345,14513,SomeText,344564,Some...
Я использую Confluent KafkaAvroDerserializer для десериализации объектов Avro, отправленных через...
Я использую Apache Presto 0.212 в EMR 5.19.0, потому что AWS Athena не поддерживает...
Я наткнулся на эту страницу в jira, и я хотел бы знать, как получить такое же представление групп...
Я написал DataFrame в spark-shell в hdfs и получил следующий вывод.Я хочу понять, что определяет...
Я хочу загрузить данные из корзины s3 в Pig на EMR, и мой исходный формат файла - паркет: Ниже...
Я пытаюсь установить размер блока и размер группы строк для моего экземпляра hdfs для тестирования
Существует файл паркета со столбцом binary (UTF8) с именем abc. Можно ли создать в кусте таблицу...
Есть ли способ обрабатывать разные запросы sparkSQL (запросы на чтение с разными фильтрами и...
У меня есть папка (7,7 ГБ) с несколькими кадрами данных панд, которые хранятся в формате файла...
Я читаю файл CSV с pandas.read_csv, и он автоматически определяет схему, которая похожа на Column1:...
Как я могу написать в паркет с пользовательским разделителем? (partitonBy, по несуществующему...
Я пытаюсь объединить несколько файлов паркета в один. Их схемы идентичны на местах, но моя...
Я получаю ошибку ниже при записи файла паркета имя 'spark_write_parquet' не определено Нужно ли...
Я пытаюсь перенести данные из Hive в BigQuery. Данные в таблице Hive хранятся в формате файла...
Ошибка ниже, при сохранении фрейма данных в виде таблицы в режиме партера, перед тем, как...
У меня есть база данных PostgreSQL с ~ 1000 различными таблицами. Я хотел бы экспортировать все эти...