Моя текущая рабочая настройка : NiFi направляет сообщения Avro (справочник реестра Confluent...
Я использую spark-структурированную потоковую передачу в качестве потребителя для получения данных...
Я хочу использовать Dask для загрузки определенных столбцов из множества файлов паркета, которые...
Каков правильный подход к синтаксическому анализу Паркетных файлов с помощью Perl? Кажется, что...
У меня около 100 ГБ данных в день, которые я записываю в S3 с помощью Spark.Формат записи - паркет
Я пытаюсь сохранить фрейм данных pandas в файл паркета, используя pd.to_parquet(df). df - это фрейм...
Я хочу загрузить данные из On Premise SQL SERVER в хранилище больших двоичных объектов с...
Я пытаюсь провести некоторое POC-тестирование, чтобы файлы S3 parquet можно было запрашивать через...
Я пытаюсь использовать потоковую передачу Flink для использования тематических сообщений Kafka и...
Я хочу подключить pyarrow для чтения и записи файла паркета в формате hdfs. Но я столкнулся с...
Я пытаюсь создать объект класса ParquetWriter, который принимает аргумент (OutputFile, Mode,...
Я изучаю варианты для варианта использования, в котором мы сохраняем набор данных в виде файлов...
У меня есть большой файл Parquet с несколькими небольшими группами строк.Я хотел бы создать новый...
В настоящее время у меня есть несколько тысяч сжатых GZIP-файлов без заголовка в формате S3 в S3,...
После загрузки файла паркета из хранилища Google в таблицу BigQuery. Данные в режиме...
Как мне создать AvroParquetReader для чтения, когда я знаю путь к файлу? Все тесты в собственном...
У меня есть секционированная таблица Hive, заполненная Hive и сохраненная на S3 как Parquet. Размер...
У меня есть некоторые проблемы при чтении паркетов из hdf, которые периодически создаются моими...
Мне нужно использовать файлы паркета, чтобы провести некоторый анализ и обогатить их информацией....
Я хочу оптимизировать чтение столбца в Паркет, используя метод ReadBatch. Вы передаете количество...
Я использую PySpark на AWS Glue.Появляется при записи набора данных со столбцом даты, используемым...
HIVE_CANNOT_OPEN_SPLIT: Ошибка при открытии Hive split s3: // путь / к / файлу / .snappy.parquet:...
Мне нужно загрузить несколько файлов паркета в фрейм данных spark и указать отдельно, из какого...
Мои результаты хранятся в Amazon S3 в формате паркета. Мои требования следующие: У меня есть ведро...
Я выполняю задание Glue ETL для таблицы данных CSV, созданной средством поиска клея.Обходчик...