Вопросы с тегом pyarrow

2 голосов

0 ответов

PySpark 2.4.4 до Pandas завершается с ошибкой ValueError не хватает значений для распаковки (ожидается 3, получено 2)

Manoj Srivatsav / 18 января 2020

0 голосов

1 ответ

Dask DataFrame преобразует неподходящий индекс файлов паркета из datetime64 в объект, почему?

Olddave / 15 января 2020

0 голосов

0 ответов

загрузка проблемы с пиарроу в модуле пера

Finn Lawson / 15 января 2020

0 голосов

1 ответ

«pyarrow.lib.ArrowInvalid: приведение от метки времени [ns] к метке времени [мс] приведет к потере данных» при отправке данных в BigQuery без схемы

Simon Breton / 10 января 2020

2 голосов

0 ответов

pyarrow.lib.ArrowInvalid: («Не удалось преобразовать X с типом Y: не распознал тип значения Python при выводе типа данных Arrow»)

Nyxynyx / 08 января 2020

1 голос

2 ответов

чтение разделенного набора данных в aws s3 с помощью pyarrow не добавляет столбцы разделов

Mohammed Almatary / 07 января 2020

1 голос

2 ответов

невозможно прочитать файлы паркет из каталога с Pyarrow

Я использую pyarrow (0.12.1) для чтения в паркете объектов из s3 Вот код, который я использую: s3 =...

William / 08 ноября 2019

1 голос

0 ответов

ImportError: Невозможно найти общую библиотеку: libhdfs3.so с Python Anaconda

Работа с приведенной ниже версией Python: (base) [xxxx@xxx-xxx-000 lib]# python Python 3.7.3...

gnish9 / 05 ноября 2019

0 голосов

1 ответ

ImportError: libarrow.so.14: невозможно открыть общий объектный файл: такого файла или каталога нет |питон

Я получаю ошибку ниже, когда пытаюсь установить библиотеку ниже, используя Файл (.tar.bz2). У меня...

gnish9 / 04 ноября 2019

0 голосов

0 ответов

Ядро Jupyter умирает при чтении файлов паркета из нескольких папок в Sagemaker

Я пытаюсь прочитать очень большой объем данных из файлов паркета s3 в мой экземпляр ноутбука...

RafaJM / 01 ноября 2019

0 голосов

1 ответ

pyarrow.lib.ArrowIOError: Неверный размер файла паркета составляет 0 байт

Я пытаюсь сделать что-то вроде this , читая список файлов из корзины S3 в таблицу pyarrow. Если я...

LondonRob / 31 октября 2019

0 голосов

1 ответ

Файлы паркетных разделов на Azure Blob (пиарроу)

Я вручную разбивал файлы на панды (создавая индекс или мультииндекс, а затем записывал отдельный...

ldacey / 30 октября 2019

0 голосов

0 ответов

Какой-нибудь пример, показывающий использование Apache Arrow для потока IPC с малой задержкой?

Я очень новичок в Apache Arrow и хочу посмотреть, смогу ли я использовать его для потока IPC с...

Sam / 29 октября 2019

1 голос

1 ответ

Экспорт кадра данных с нулевым Int64 из панд в R

Я пытаюсь экспортировать фрейм данных, который содержит среди прочих категориальные и обнуляемые...

cel / 26 октября 2019

0 голосов

1 ответ

Где я могу найти пример для IPC с использованием Apache Arrow?

Я новичок в Apache Arrow и хочу запустить несколько тестов для настройки IPC (Java или Python)....

Sam / 24 октября 2019

0 голосов

0 ответов

Ошибка PyArrow при запуске PySpark в сочетании с UDFS Panda в PyCharm

Ниже приведен мой код: from pyspark.sql import SparkSession import pandas as pd from pyspark.sql...

Jorrick Sleijster / 24 октября 2019

0 голосов

1 ответ

преобразование между искрой df, паркетным объектом и пандами df

Я без проблем преобразовал файл паркета в pandas, но имел проблему с преобразованием паркета в...

santoku / 21 октября 2019

0 голосов

1 ответ

Читать только определенные строки файлов .parquet, соответствующие критериям?

Я работаю против файловой системы, заполненной файлами .parquet. Один из столбцов, id, однозначно...

Assaf Muller / 18 октября 2019

1 голос

1 ответ

Как сжать / распаковать сериализованный DataPrame Pandas с PyArrow?

Я использую Redis для хранения данных Pandas. Я использую PyArrow для сериализации и хотел бы...

ghav / 18 октября 2019

1 голос

0 ответов

Не могу написать действительные файлы паркета с временными метками панд

Когда я пытаюсь записать файл партера, используя pandas.Timestamp в качестве индекса, я не могу...

hobbitmessiah / 17 октября 2019

0 голосов

0 ответов

Как читать из pyarrow.BufferOutputStream следующий кусок данных?

Чтение документов "Запись и чтение потоков" . Там использовался следующий код для чтения всего...

Dima Fomin / 17 октября 2019

0 голосов

1 ответ

Как десериализовать RecordBatch из буфера пиарроу

Моя цель - сериализовать RecordBatch, отправить его по каналу веб-сокета и десериализовать его на...

attdona / 17 октября 2019

1 голос

1 ответ

Почему разделенные файлы паркета занимают больше места на диске?

Я изучаю паркетный файл, используя python и pyarrow. Паркет отлично сжимает и минимизирует дисковое...

addicted / 13 октября 2019

2 голосов

1 ответ

Панды и FastParquet читают один раздел

У меня ужасно долгое задание для чтения в наборе данных, который имеет естественный логический...

user3502355 / 11 октября 2019

5 голосов

1 ответ

Преобразованный файл стрелки apache из фрейма данных дает нулевое значение при чтении с помощью arrow.js

Я преобразовал один пример данных в .arrow файл, используя pyarrow import numpy as np import pandas...

Sarath / 10 октября 2019