Вопросы с тегом pyarrow

0 голосов

1 ответ

сборка hadoop 3.1.1 в osx для получения нативных библиотек

Я устанавливаю hadoop по brew install hadoop, а затем использую pip install pyarrow в качестве...

wyx / 21 февраля 2019

0 голосов

0 ответов

Невозможно указать путь в pyarrow.HadoopFileSystem.ls

Я пытаюсь запустить hadoop ls через python.код:) тоже, но бесполезно.могут ли некоторые вести меня,...

Jeevan / 20 февраля 2019

0 голосов

0 ответов

Панды читают паркет со структурой (не массивом)

Вызов pd.read_parquet('foo.parquet') завершается неудачно с: ArrowInvalid: Chunked field...

Georg Heiler / 19 февраля 2019

0 голосов

2 ответов

Pandas DataFrame с категориальными столбцами из файла Parquet с использованием read_parquet?

Я конвертирую большие файлы CSV в файлы Parquet для дальнейшего анализа.Я читаю данные CSV в Pandas...

davidrpugh / 17 февраля 2019

0 голосов

1 ответ

Панды для паркет НЕ в файловую систему, но получить содержимое результирующего файла в переменной

Существует несколько способов, с помощью которых возможен переход от панд к паркету.например,...

RenPen / 13 февраля 2019

0 голосов

0 ответов

Невозможно прочитать (read_csv) из HDFS, используя Dask (FileNotFoundError: [Errno 2])

У меня есть кластер с установленным hadoop: hadoop version Hadoop 3.1.1.3.0.1.0-187 Source code...

Mikhail_Sam / 12 февраля 2019

0 голосов

1 ответ

Совместное использование объектов между работниками с помощью пиарроу

Я хотел бы предоставить доступ только для чтения к совместно используемому DataFrame нескольким...

Konstantin / 07 февраля 2019

0 голосов

1 ответ

несовместимая схема при чтении паркета и экспорте из Vertica

Я заметил странное поведение при экспорте данных из Vertica и попытке прочитать их позже с паркетом...

Dmitriy Apollonin / 04 февраля 2019

0 голосов

1 ответ

Чтение секционированного файла Parquet с Pyarrow использует слишком много памяти

У меня есть большая база данных Impala, состоящая из разделенных файлов Parquet.Я скопировал один...

Ivan / 01 февраля 2019

0 голосов

1 ответ

Встраиваемые типы в паркете

Поддерживает ли паркет встроенные типы, такие как JSON и BSON, как указано в документации .Я не...

Arun Kumar / 31 января 2019

0 голосов

1 ответ

Проблема производительности с таблицей Impala с объединенными файлами паркета

Здесь у меня есть утилита python для создания нескольких файлов паркета с использованием библиотеки...

Ajay Kharade / 28 января 2019

0 голосов

0 ответов

Преобразование данных ПЛК в DWORD в плавающее с использованием Python

Я использую Node-red для преобразования информации из ПЛК во Float. Это код для преобразования. Я...

eljuliman / 26 января 2019

0 голосов

0 ответов

Сохранение кадра данных dask с помощью ** dd.to_parquet ** в файловой системе NFS

Я пытаюсь сохранить dask.dataframe с помощью метода dd.to_parquet в файловой системе NFS. Для этого...

Julio CamPlaz / 23 января 2019

0 голосов

1 ответ

Как сделать и эффективно запустить «пустую» пользовательскую функцию PySpark (UDF), которая ничего не возвращает?

Учитывая доступные методы для указания пользовательских функций в PySpark: Нестандартные...

Jake Spracher / 17 января 2019

0 голосов

1 ответ

Преобразование pandas df в parquet-file-bytes-object

У меня есть фрейм данных pandas, и я хочу записать его в виде файла паркета в хранилище файлов...

Cribber / 16 января 2019

0 голосов

2 ответов

Преобразование из большого CSV в паркет с использованием ошибки Python

У меня есть CSV-файл, который содержит примерно 200+ столбцов и 1 миллион + строк. Когда я...

Yesaya / 15 января 2019

0 голосов

1 ответ

Как сериализовать пользовательские классы как структуры, используя pyarrow в dask dataframes?

У меня есть dask dataframe, в котором есть столбец типа List [MyClass]. Я хочу сохранить этот фрейм...

cheap_grayhat / 11 января 2019

0 голосов

2 ответов

Потоковый паркетный файл python и только даунсэмплинг

У меня есть данные в формате паркета, которые слишком велики, чтобы уместиться в память (6 ГБ). Я...

Sjoseph / 02 января 2019

0 голосов

1 ответ

Потоковая передача файлов из tar-файла в hdfs

У меня есть изображения TIFF, хранящиеся в файлах tar в HDFS.Я могу скачать tar-файл и поток из...

Ehsan Fathi / 01 января 2019

0 голосов

1 ответ

Есть ли в pandas.read_csv эквивалент аргумента chunksize в виде пирообразного символа?

Я пытаюсь обработать большой файл (5 ГБ) в ОЗУ, но получаю сообщение об ошибке «Недостаточно...

Sjoseph / 25 декабря 2018

0 голосов

0 ответов

Схема синтаксического анализа объекта pyarrow.parquet.ParquetDataset

Я использую pyarrow для чтения данных паркета из s3, и я хотел бы иметь возможность...

femibyte / 20 декабря 2018

0 голосов

0 ответов

Pyarrow Table.from_pandas изменение предоставленной схемы

У меня есть поэтапно заполненная секционированная паркетная таблица, построенная с использованием...

Karl Koster / 20 декабря 2018

0 голосов

1 ответ

Есть ли способ заставить работников Spark использовать версию с распределенной версией вместо установленной на них?

Ситуация выглядит следующим образом: работая на корпоративном кластере с поддержкой версии 2.3, я...

Ezer K / 16 декабря 2018

0 голосов

1 ответ

Pyarrow.lib.Schema vs. pyarrow.parquet.Schema

Когда я пытаюсь загрузить многораздельный файл паркета, некоторые схемы ошибочно выводятся из-за...

user1111 / 11 декабря 2018

0 голосов

1 ответ

Как сохранить метки времени в файлах паркета в C ++ и загрузить их в Python Pandas?

Я использую Apache Arrow в C ++ для сохранения коллекции временных рядов в виде файла паркета и...

motam79 / 07 декабря 2018