Я загружаю цены акций на конец дня для более чем 20 000 глобальных ценных бумаг на 20 различных...
Я изучаю паркетный файл, используя python и pyarrow. Паркет отлично сжимает и минимизирует дисковое...
У меня ужасно долгое задание для чтения в наборе данных, который имеет естественный логический...
Кажется, это работает для CSV, но мне нужно загрузить файл Parquet library(AzureStor) bl_endp_key...
У меня есть данные паркета со следующей схемой, Id:int, Name:String На более поздней стадии новая...
У меня есть папка проекта, содержащая ок. 50 ГБ файлов паркета в кластере hadoop ( CDH 5.14 ),...
Я пытался записать Spark Dataset в файл паркета на корзине S3, используя S3ACommitters,...
Я просматриваю документацию для IBM Db2 Event Store и вижу следующее утверждение: «Данные в общей...
Я загружаю набор данных в DynamicFrame, выполняю преобразование и затем записываю его обратно в S3:...
Ниже приведены некоторые папки, которые могут обновляться со временем. У них есть несколько файлов
Я столкнулся с несколькими источниками информации, такими как найденный здесь , который объясняет...
Я новичок в разжигании и не имею опыта программирования на Java. Я использую pyspark для обработки...
Я пытаюсь смоделировать parquet и утверждать, что он вызывается с правильным путем, но возникают...
У меня есть тысячи файлов паркета, которые мне нужно обработать. Перед обработкой файлов я пытаюсь...
Я сгенерировал файл паркета с одним из типов данных столбца: datetime64. Когда я читаю этот файл...
Нам нужно ежедневно преобразовывать текстовые данные в паркет / авро, когда входные данные...
При попытке запустить m / r с использованием файла паркета в каскадной библиотеке я получаю...
Я сохраняю файл в datalake. Я создал один конвейер, который проверяет метаданные каналов и...
Я пытаюсь загрузить файлы паркета из S3 в Amazon Aurora DB. Может кто-нибудь, пожалуйста, помогите...
Проблема довольно проста, каждый раз, когда я запрашиваю детализацию, куча памяти продолжает...
Я новичок в PySpark. Я прочитал файл паркета.Я хочу сохранить только столбцы, имеющие не менее 10...
Я хотел бы преобразовать этот код: import org.apache.hadoop.conf.Configuration; import org.apache
Я записываю данные json в Firehose с S3, настроенным как пункт назначения, с firehose, настроенным...
Я пытаюсь прочитать паркетный файл с S3 и продолжаю получать ошибки.Нет проблем при записи файла...
Используя образцы из разных источников, я написал этот метод (соответствующий раздел показан ниже),...