Я устанавливаю hadoop по brew install hadoop, а затем использую pip install pyarrow в качестве...
Я пытаюсь запустить hadoop ls через python.код:) тоже, но бесполезно.могут ли некоторые вести меня,...
Вызов pd.read_parquet('foo.parquet') завершается неудачно с: ArrowInvalid: Chunked field...
Я конвертирую большие файлы CSV в файлы Parquet для дальнейшего анализа.Я читаю данные CSV в Pandas...
Существует несколько способов, с помощью которых возможен переход от панд к паркету.например,...
У меня есть кластер с установленным hadoop: hadoop version Hadoop 3.1.1.3.0.1.0-187 Source code...
Я хотел бы предоставить доступ только для чтения к совместно используемому DataFrame нескольким...
Я заметил странное поведение при экспорте данных из Vertica и попытке прочитать их позже с паркетом...
У меня есть большая база данных Impala, состоящая из разделенных файлов Parquet.Я скопировал один...
Поддерживает ли паркет встроенные типы, такие как JSON и BSON, как указано в документации .Я не...
Здесь у меня есть утилита python для создания нескольких файлов паркета с использованием библиотеки...
Я использую Node-red для преобразования информации из ПЛК во Float. Это код для преобразования. Я...
Я пытаюсь сохранить dask.dataframe с помощью метода dd.to_parquet в файловой системе NFS. Для этого...
Учитывая доступные методы для указания пользовательских функций в PySpark: Нестандартные...
У меня есть фрейм данных pandas, и я хочу записать его в виде файла паркета в хранилище файлов...
У меня есть CSV-файл, который содержит примерно 200+ столбцов и 1 миллион + строк. Когда я...
У меня есть dask dataframe, в котором есть столбец типа List [MyClass]. Я хочу сохранить этот фрейм...
У меня есть данные в формате паркета, которые слишком велики, чтобы уместиться в память (6 ГБ). Я...
У меня есть изображения TIFF, хранящиеся в файлах tar в HDFS.Я могу скачать tar-файл и поток из...
Я пытаюсь обработать большой файл (5 ГБ) в ОЗУ, но получаю сообщение об ошибке «Недостаточно...
Я использую pyarrow для чтения данных паркета из s3, и я хотел бы иметь возможность...
У меня есть поэтапно заполненная секционированная паркетная таблица, построенная с использованием...
Ситуация выглядит следующим образом: работая на корпоративном кластере с поддержкой версии 2.3, я...
Когда я пытаюсь загрузить многораздельный файл паркета, некоторые схемы ошибочно выводятся из-за...
Я использую Apache Arrow в C ++ для сохранения коллекции временных рядов в виде файла паркета и...