Рассмотрим вложенный JSON, имеющий следующий формат: { "f1": "v1",...
Я пытаюсь записать кадр данных Pandas в многораздельный файл: df.to_parquet('output
Я (впервые) пытаюсь перераспределить данные, с которыми работает моя команда, для повышения...
Паркет создается с нуля с учетом сложных вложенных структур данных и использует алгоритм...
Имеется сжатый файл, написанный на платформе hadoop, в одном из следующих форматов: Avro Parquet...
Я хочу добавить комментарий к каждому столбцу в таблице Hive Parquet.Я пытаюсь добавить комментарий...
Я недавно начал работать над новым проектом, в котором мы используем Spark для записи / чтения...
У меня есть сжатый zip csv, хранящийся на S3.Я хотел бы преобразовать этот файл в формат паркета,...
Скажем, у меня есть пандас DataFrame df, который я хотел бы сохранить на диске как набор данных с...
Как прочитать метаданные файла Parquet (имена столбцов с типами) из IBM COS в Python? Единственный...
У меня большой фрейм данных, который я записываю в паркетные файлы в HDFS.Получение из журнала...
У меня есть сценарий использования, в котором я передаю потоковые файлы (более 50 тыс. Столбцов),...
Я экспериментирую с запросами Athena о данных, хранящихся в паркете в s3.Я добавил раздел в столбец...
Я пытаюсь использовать следующую примерную схему документа из бумаги Dremel Dremel: интерактивный...
Я включил свойство "spark.parquet.strings.signed-min-max.enabled" для работы с искрой.При проверке...
У меня есть DataFrame, который я пытаюсь partitionBy столбца, отсортировать его по этому столбцу и...
Проблемы при создании / загрузке паркетного стола из Spark Сведения об окружающей среде:...
В настоящее время результаты запроса Athena представлены в формате tsv в S3.Есть ли способ...
У меня есть искровое задание, которое читается в меньшем файле паркета и вносит некоторые изменения...
Я работаю с двумя потоковыми API C #, один из которых является источником данных , а другой...
Я пытаюсь записывать потоковые JSON-сообщения напрямую в Parquet, используя Scala (без Spark).Я...
Я пытаюсь прочитать файл паркета в Spring Batch Job и записать его в JDBC.Есть ли какой-нибудь...
Я выполняю довольно простую работу Spark: прочитайте пару наборов данных Parquet (10-100 ГБ) каждый...
Я пытаюсь реализовать приложение (на C ++), использующее Apache Arrow, которое берет память из...
Можно ли записать dask / pandas DataFrame в паркет, а затем вернуть строку байтов?Я знаю, что это...