Вопросы с тегом паркет

1 голос

1 ответ

Ошибка CUDF при обработке большого количества файлов паркета

У меня есть 2000 паркетных файлов в каталоге.Размер каждого файла паркета составляет около 20 МБ

chochim / 26 сентября 2019

1 голос

0 ответов

Преобразуйте org.apache.parquet.example.data.simple.SimpleGroup в org.apache.avro.generic.GenericData.Record.

Я пишу код для преобразования большого файла паркета, который у меня есть в виде строк: List<org

chrismead / 26 сентября 2019

0 голосов

0 ответов

Как добавить данные всех файлов Parquet из папки корзины s3 в один фрейм данных в python

В моей папке около 10 файлов с одинаковыми именами столбцов.Я хочу добавить все 10 файлов данных...

Dppriya Reddy / 25 сентября 2019

1 голос

1 ответ

Идентификатор раздела неявно преобразуется при чтении из s3 в spark / scala

У меня есть исходные данные в s3, и мое приложение spark / scala прочитает эти данные и запишет их...

Divzz / 25 сентября 2019

0 голосов

0 ответов

Таблица Apache Arrow из буфера памяти iostream или памяти

У меня есть некоторый код, который получает файл паркета из AWS S3, используя AWS API.В результате...

user1978816 / 25 сентября 2019

2 голосов

0 ответов

Как установить минимальный и максимальный размер паркетных файлов в Hive?

Я создал внешнюю таблицу, используя паркет в улье, используя сжатие snappy.Я хочу настроить размер...

LHS / 25 сентября 2019

0 голосов

0 ответов

Сохранение кадра данных из файла Parquet приводит к случайному разливу

Я экспериментирую с памятью, используемой искровым фреймом данных, созданным из файла CSV и файла...

user1124702 / 25 сентября 2019

0 голосов

1 ответ

Как исправить проблему с памятью при чтении паркета в Pandas

Я читаю файлы из S3 во фрейм данных Pandas: файлы являются паркетами, которые были разделены.Я буду...

Collin Cunningham / 24 сентября 2019

1 голос

0 ответов

Как избежать чтения файлов паркета, которые находятся в состоянии ожидания?

Я использую структурированную потоковую обработку Spark (используйте SSS в качестве сокращения...

jay Wong / 24 сентября 2019

0 голосов

1 ответ

Как прочитать байтовый объект паркета в python

У меня есть объект Python, который, как я знаю, является загруженным в объект файлом паркета.(У...

AnarKi / 23 сентября 2019

0 голосов

0 ответов

Чтение паркетного двоичного объекта в python

У меня есть объект var_1, который содержит: b'PAR1\x15\x....1\x00PAR1 , когда я проверяю тип:...

AnarKi / 23 сентября 2019

0 голосов

1 ответ

Загрузка больших данных в экземплярах EC2

Я хочу выполнить моделирование данных с помощью Deep-Learning, поэтому я попытался загрузить данные...

RAHUL VISHWAKARMA / 23 сентября 2019

0 голосов

2 ответов

Как перезаписать файл паркета, откуда читается DataFrame в Spark

Это микрокосм проблемы, с которой я сталкиваюсь, где я получаю ошибку.Позвольте мне попытаться...

cph_sto / 19 сентября 2019

0 голосов

0 ответов

Размеры паркета Pyspark резко отличаются

Я использую pyspark для ежедневной обработки фиксированного набора записей данных и сохраняю их в...

Y.Su / 19 сентября 2019

0 голосов

1 ответ

Имеет ли значение установка parquet.block.size при записи в s3 или gs?

Мы знаем, что установка parquet.block.size в качестве размера блока HDFS рекомендуется, но это...

Ranga Vure / 19 сентября 2019

0 голосов

0 ответов

Стратегии эволюции схемы паркета

У нас есть вложенная (на нескольких уровнях) json в качестве схемы паркета.Схема используется для...

Vijayant / 19 сентября 2019

0 голосов

0 ответов

Устранение неполадок при чтении пиарроу в файле Parquet (количество строк правильное, но таблица не содержит строк)

Я работаю в ноутбуке JupyterLab, используя Python 3 с pandas и pyarrow.У меня есть некоторые данные...

Hissohathair / 19 сентября 2019

0 голосов

1 ответ

Как определить, из какого файла получена запись при чтении нескольких файлов паркета с помощью облачного потока данных Google

У меня есть требование, чтобы иметь возможность проследить происхождение до отдельного файла...

Steven Ensslen / 18 сентября 2019

0 голосов

0 ответов

Как скопировать конкретные данные (столбцы), используя hadoop distcp между кластерами?

Среда Cloudera, мне нужно реплицировать данные из одного кластера в другой и отбрасывать все...

mdivk / 11 июля 2019

0 голосов

0 ответов

Передача данных между R и Python с использованием паркета - проблема с числом по сравнению с int

Мы пытаемся использовать parquet как общий файл между R и Python. 1. Использование...

Joseph Berry / 11 июля 2019

1 голос

1 ответ

Шаг EMR Spark для добавления в файлы паркета перезаписывает файлы паркета

Spark 2.4.2 в кластере Amazon EMR (1 мастер, 2 узла) с использованием Python 3.6 Я читаю объекты в...

Eric / 10 июля 2019

0 голосов

1 ответ

Есть ли способ конвертировать несколько 1000 столбцов из строки в целое число, сохраняя при этом как файл паркета?

Используя pyspark, я извлекаю 1500 полей из файла JSON, сохраняю их как паркет и создаю внешнюю...

Ramya / 09 июля 2019

0 голосов

0 ответов

Сбой экспорта Sqoop при экспорте файлов паркета из S3 в SQL Server

Я пытаюсь экспортировать файл паркетной формы S3 в SQL Server, используя Sqoop, и получаю эту...

Umar / 09 июля 2019

0 голосов

1 ответ

Spark Dataframe из SQL-запросов

Я пытаюсь использовать Apache Spark для загрузки результатов (большого) запроса SQL с несколькими...

codepringle / 09 июля 2019

0 голосов

0 ответов

Чтение секционированного паркета в Azure ADLS с использованием Python Pandas

Я пытаюсь прочитать данные, хранящиеся в виде партера, в моем хранилище Azure ADLS. Просто...

BadrF / 09 июля 2019