Вопросы с тегом pyarrow

0 голосов

1 ответ

Сохранение индекса при загрузке паркета Pyarrow из панд DataFrame

Мне нужно преобразовать dict со значениями dict в паркет, у меня есть данные, которые выглядят так:...

unixeO / 06 декабря 2018

0 голосов

0 ответов

Pyspark pyarrow pandas_udf - GROUPED_MAP возвращает фрейм данных с None NaN для IntegerType, TimestampType

Best В данный момент я экспериментирую с pyspark pandas_udf , но, к сожалению, у меня возникают...

Dieter / 03 декабря 2018

0 голосов

3 ответов

Как читать пера файл изначально?

У меня есть файл формата * sales.fea, который я использую для обмена данными между python и R. В RI...

jangorecki / 01 декабря 2018

0 голосов

0 ответов

Есть ли конструктор массива пироу

Я ищу конструктор массива стрелок Python. Мой пример использования следующий: у меня есть записи...

Arthur / 30 ноября 2018

0 голосов

1 ответ

Есть ли способ в Pyarrow запросить значения разделов набора данных паркета?

Например, у меня есть набор данных, похожий на этот: dataset ├── a=1 │ └── 1.parquet ├── a=2 │ └──...

XiUpsilon / 29 ноября 2018

0 голосов

1 ответ

Используйте pyarrow и json.dump для сохранения файла json в формате hdfs.

Я пытаюсь сохранить файл json в HDFS, используя pyarrow.Вот как выглядит мой код. from pyarrow...

emperorspride188 / 21 ноября 2018

0 голосов

1 ответ

Конфликт схемы при хранении фреймов данных с объектами datetime с использованием load_table_from_dataframe ()

Я пытаюсь загрузить данные из Pandas DataFrame s в таблицу BigQuery.У DataFrame есть столбец dtype...

Johannes Bauer / 16 ноября 2018

0 голосов

1 ответ

Преобразование таблицы PyArrow в PySpark Dataframe

Я пытаюсь преобразовать мой фрейм данных Pandas в фрейм данных PySpark. Функция createDataFrame не...

kikee1222 / 16 ноября 2018

0 голосов

0 ответов

Панды, конвертирующие NULL Int64 в Float64

У меня есть паркет с несколькими обнуляемыми столбцами Int64. Когда я читаю таблицу паркета,...

micah / 16 ноября 2018

0 голосов

1 ответ

Комплект штанов-переводчиков для Pyarrow

Я использую Pants для создания файла .pex для моего проекта.Мой файл сборки имеет зависимость для...

Alexandr Proskurin / 13 ноября 2018

0 голосов

1 ответ

Как конвертировать схему фрейма данных Pandas

Я читаю файл CSV с pandas.read_csv, и он автоматически определяет схему, которая похожа на Column1:...

Hamed / 10 ноября 2018

0 голосов

1 ответ

Apace Arrow Plasma Client - Не удается подключиться к хранилищу памяти (UnsatisfiedLinkError)

Я пытаюсь использовать Java API для Apache Arrow для подключения к хранилищу памяти. Я успешно...

SSS / 09 ноября 2018

0 голосов

0 ответов

Слияние паркетных файлов - Pandas Meta в схеме несоответствие

Я пытаюсь объединить несколько файлов паркета в один. Их схемы идентичны на местах, но моя...

micah / 08 ноября 2018

0 голосов

1 ответ

Можно ли получить непосредственный доступ к памяти стрелки :: MemoryMappedFile?

разработчикам, Я использую стрелку :: MemoryMappedFile и вместо того, чтобы делать копию данных, я...

user1154422 / 06 ноября 2018

0 голосов

2 ответов

Самый быстрый способ перебора таблицы Pyarrow

Я использую библиотеку Pyarrow для оптимального хранения Pandas DataFrame. Мне нужно обработать...

Alexandr Proskurin / 05 ноября 2018

0 голосов

1 ответ

Как прочитать определенный список файлов паркета из s3, используя PyArrow?

Мне нужно постепенно загружать данные в Pandas из файлов Parquet, хранящихся в s3, я пытаюсь...

314159 / 03 ноября 2018

0 голосов

0 ответов

Невозможно загрузить libhdfs при использовании pyarrow

Я пытаюсь подключиться к HDFS через Pyarrow, но это не работает, потому что libhdfs библиотека не...

Pablo Velasquez / 31 октября 2018

0 голосов

2 ответов

Загадочный 'pyarrow.lib.ArrowInvalid: значение с плавающей запятой усечено' ОШИБКА при использовании toPandas () в DataFrame в pyspark

Я использую toPandas () для DataFrame, который не очень большой, но я получаю следующее исключение:...

Hao / 31 октября 2018

0 голосов

0 ответов

Невозможно загрузить libhdfs

Попытка использовать pyarrow для доступа к файлу hdfs и не в состоянии заставить его работать, ниже...

mdivk / 28 октября 2018

0 голосов

1 ответ

Утечка памяти из пиарроу?

Для разбора файла большего размера мне нужно последовательно записывать большое количество файлов...

Abel Riboulot / 27 октября 2018

0 голосов

1 ответ

Перераспределение созданных parquet-mr паркетов с помощью pyarrow / parquet-cpp увеличивает размер файла на x30?

Используя AWS Firehose, я конвертирую входящие записи в паркет. В одном примере у меня есть 150k...

micah / 26 октября 2018

0 голосов

1 ответ

Файл паркета запроса Apache-Drill: Ошибка в программе чтения паркетной записи

Я создал файл паркета с помощью Pyarrow, и его можно запросить с помощью Pyspark.Однако его нельзя...

Ray / 23 октября 2018

0 голосов

0 ответов

pyarrow hdfs.connect на windows

Я хочу использовать pyarrow для чтения и записи из hdfs. Я установил hadoop на моей 64-битной...

Martin Kraus / 23 октября 2018

0 голосов

2 ответов

Как написать разделенный файл Parquet, используя Pandas

Я пытаюсь записать кадр данных Pandas в многораздельный файл: df.to_parquet('output

Ivan / 22 октября 2018

0 голосов

1 ответ

Что такое стол пиарроу?Будет ли он заменой панелей данных?

Я пытался читать документы, но я все еще в замешательстве.Смогут ли таблицы pyarrow работать с...

The Unfun Cat / 18 октября 2018