Я сталкиваюсь с проблемой асимметрии, когда пытаюсь объединить 2 набора данных.Один из разделов...
Я попытался преобразовать исходные файлы паркета в csv, а выходной файл csv снова в паркет. При...
мы используем spark для запуска нашего преобразования, т. Е. Join, groupBy и т. Д. Существует два...
Мне часто приходится создавать файлы паркета для тестирования компонентов инфраструктуры, таких как...
Я запускаю искровое задание, в котором я пытаюсь вставить данные из 11 тыс. Столбцов в таблицу...
Я ищу способ ускорить интенсивное использование памяти в приложении. Я видел, что некоторые люди...
У меня есть одна из наших систем Python, генерирующая файлы Parquet с использованием Pandas и...
В настоящее время выполняется некоторый код, подобный следующему: df = pd
Какова лучшая практика для работы с Vertica и Parquet Моя архитектура приложения: Kafka Topic (Avro...
Я пытаюсь запустить команду parquet-tools , чтобы просмотреть только схему файла моего файла...
Из-за некоторых ограничений потребителя моих данных мне нужно «переписать» некоторые файлы паркета,...
В настоящее время у нас есть задача DMS, которая будет принимать содержимое базы данных MySQL и...
Я конвертирую данные из CSV в Parquet, используя Python (Pandas), чтобы позже загрузить их в Google...
Я использую avro 1.8.2 и простую запись avro idl, как, например, record FooRecord { string...
У нас есть процесс дедупликации, который читает файлы паркета, удаляет дубликаты записей и...
Я хочу попытаться сохранить много больших DataFrames Pandas, которые не помещаются в память сразу,...
Я использую ReflectData для генерации схемы из класса Java. Одно из полей private LocalDate...
Я хочу записать поток больших данных в файл паркета с Python. Мои данные огромны, и я не могу...
Я столкнулся со сценарием, в котором у меня был набор искровых данных с 24 столбцами, из которых я...
Я читаю паркет с: df = spark.read.parquet(file_name) И получите столбцы с: df.columns И возвращает...
У меня есть pyarrow код написания набора данных для паркета. Я хочу провести интеграционный тест,...
Я пытаюсь прочитать файл паркета с помощью этого простого кода: ParquetReader<GenericRecord>...
У меня есть поток Kinesis, в который мое приложение записывает ~ 10K сообщений в секунду в формате...
В настоящее время я пытаюсь выполнить пакетную обработку с использованием Spring Batch с CSV для...
Я пытаюсь записать свой фрейм данных в таблицу разделов кустов. Формат таблицы кустов - паркет. Но...