Мы используем MapR FS со скользящими томами, и необходимо выровнять файлы секционированного...
У нас есть сценарий Python для нашей склеенной работы, и запускаемые три раза в час для...
У меня много проблем с поиском ответа на этот вопрос.Допустим, я пишу информационный кадр для...
Рассмотрим следующий фрейм данных import pandas as pd import numpy as np import pyarrow.parquet as...
У меня есть файл CSV, который хранится в формате hdf в следующем формате: Business Line,Requisition...
У меня есть следующий код, который получает некоторые данные из системы Marketo from...
Я использую WriteSupport, который знает, как записать мой пользовательский объект 'T' в Parquet
Я создал таблицу (test_load) на основе схемы другой (test).Затем я вставил test_load в другую...
Я новичок AWS Glue, который пытается прочитать некоторые объекты паркета, которые есть у меня в S3,...
Я пытаюсь сохранить очень большой набор данных, используя pandas to_parquet, и он выходит из строя...
Я понимаю, что Pandas может читать и записывать файлы Parquet и из них, используя разные бэкэнды:...
Можно ли открывать файлы паркета и выполнять итерацию построчно, используя генераторы?Это...
Я пытаюсь отредактировать конфигурацию размера блока hadoop через оболочку spark, чтобы...
Мы пишем файлы из спарк и читаем из Афины / Улья.У нас возникла проблема с отметкой времени при...
Я новичок в программировании на spark / scala.Я пытаюсь сохранить наборы данных spark в файл...
В озере данных паркета, разделенном на year и month, с spark.default.parallelism, равным, например,...
Я использую следующий метод для записи данных в файл паркета: static void toParquet() { String...
В Spark 2.2 доступно ли сжатие предикатов для сжатых файлов Parquet (например, GZIP, Snappy)?
У меня есть чуть более 1200 JSON-файлов в AWS S3, которые мне нужно преобразовать в Parquet и...
Я знаю, что паркет поддерживает чтение только выбранных пользователем столбцов.Но когда я использую...
Я пытаюсь прочитать очень большой файл паркета (10 ГБ), который я не могу контролировать, как...
У меня есть некоторые данные CSV со следующими столбцами: country, region, year, month, price,...
Я пытаюсь преобразовать файл .csv в файл .parquet. Файл csv (Temp.csv) имеет следующий формат 1,Jon...
Предполагается, что файлы паркета на AWS S3 (используются для запросов в AWS Athena). Мне нужно...
Следующая операция работает, но занимает почти 2 часа: from dask import dataframe as ddf ddf