Вопросы с тегом паркет

0 голосов

1 ответ

Моя инфраструктура больших данных завершена или я что-то упустил?

Я загружаю цены акций на конец дня для более чем 20 000 глобальных ценных бумаг на 20 различных...

Levi / 13 октября 2019

1 голос

1 ответ

Почему разделенные файлы паркета занимают больше места на диске?

Я изучаю паркетный файл, используя python и pyarrow. Паркет отлично сжимает и минимизирует дисковое...

addicted / 13 октября 2019

2 голосов

1 ответ

Панды и FastParquet читают один раздел

У меня ужасно долгое задание для чтения в наборе данных, который имеет естественный логический...

user3502355 / 11 октября 2019

0 голосов

1 ответ

Как преобразовать кадр данных в файл паркета и загрузить его в хранилище BLOB-объектов Azure в R? Есть рабочие примеры?

Кажется, это работает для CSV, но мне нужно загрузить файл Parquet library(AzureStor) bl_endp_key...

Garima Gupta / 10 октября 2019

0 голосов

2 ответов

Как читать данные в искровой DF при изменении имени столбца и изменении типа данных

У меня есть данные паркета со следующей схемой, Id:int, Name:String На более поздней стадии новая...

SRV / 07 октября 2019

0 голосов

1 ответ

Как архивировать данные, хранящиеся в файлах HDFS, на другом (нераспределенном) сервере?

У меня есть папка проекта, содержащая ок. 50 ГБ файлов паркета в кластере hadoop ( CDH 5.14 ),...

mrjoseph / 07 октября 2019

0 голосов

0 ответов

Spark Aborting S3 Multipart Upload на финальной стадии

Я пытался записать Spark Dataset в файл паркета на корзине S3, используя S3ACommitters,...

Dangling Piyush / 07 октября 2019

0 голосов

1 ответ

Файлы паркета, созданные в IBM Db2 Event Store, читаются стандартным читателем?

Я просматриваю документацию для IBM Db2 Event Store и вижу следующее утверждение: «Данные в общей...

Christian Garcia Arellano / 07 октября 2019

0 голосов

1 ответ

Как контролировать размер файлов Parquet в Glue?

Я загружаю набор данных в DynamicFrame, выполняю преобразование и затем записываю его обратно в S3:...

Raffael / 05 октября 2019

1 голос

2 ответов

Как я могу прочитать несколько файлов паркета в Spark Scala

Ниже приведены некоторые папки, которые могут обновляться со временем. У них есть несколько файлов

Mradula Ghatiya / 04 октября 2019

0 голосов

1 ответ

В чем разница между «предикатным нажатием» и «проекционным нажатием»?

Я столкнулся с несколькими источниками информации, такими как найденный здесь , который объясняет...

tallamjr / 04 октября 2019

0 голосов

2 ответов

spark - Java-куча нехватки памяти при выполнении групповой работы и агрегации на большом фрейме данных

Я новичок в разжигании и не имею опыта программирования на Java. Я использую pyspark для обработки...

varun / 03 октября 2019

0 голосов

1 ответ

Тестовый паркет с питоном

Я пытаюсь смоделировать parquet и утверждать, что он вызывается с правильным путем, но возникают...

ChaseHardin / 03 октября 2019

0 голосов

1 ответ

Можно ли читать метаданные паркета из Dask?

У меня есть тысячи файлов паркета, которые мне нужно обработать. Перед обработкой файлов я пытаюсь...

dan / 03 октября 2019

0 голосов

0 ответов

столбец datetime64 в паркете читается по-разному в spark и python pandas

Я сгенерировал файл паркета с одним из типов данных столбца: datetime64. Когда я читаю этот файл...

Naveen / 03 октября 2019

0 голосов

2 ответов

Как преобразовать любой текстовый файл с разделителями в паркет / avro - динамически изменяя номер столбца / структуру в avro / parquet с помощью spark sql?

Нам нужно ежедневно преобразовывать текстовые данные в паркет / авро, когда входные данные...

sangam.gavini / 02 октября 2019

0 голосов

0 ответов

M / R каскадный NoSuchMethodError: shaded.parquet.org.apache.thrift.EncodingUtils.setBit (BIZ) B

При попытке запустить m / r с использованием файла паркета в каскадной библиотеке я получаю...

Doris / 01 октября 2019

0 голосов

0 ответов

Получить файловую систему Hadoop

Я сохраняю файл в datalake. Я создал один конвейер, который проверяет метаданные каналов и...

user3526671 / 30 сентября 2019

0 голосов

0 ответов

AWS: загрузить файлы паркета из S3 в базу данных Aurora

Я пытаюсь загрузить файлы паркета из S3 в Amazon Aurora DB. Может кто-нибудь, пожалуйста, помогите...

Sagar / 30 сентября 2019

0 голосов

0 ответов

Как освободить память кучи на Apache Drill после завершения запроса?

Проблема довольно проста, каждый раз, когда я запрашиваю детализацию, куча памяти продолжает...

simplecoder / 29 сентября 2019

0 голосов

1 ответ

Pyspark удаляет столбцы с 10 нулевыми значениями

Я новичок в PySpark. Я прочитал файл паркета.Я хочу сохранить только столбцы, имеющие не менее 10...

newpyspark / 28 сентября 2019

0 голосов

0 ответов

Чтение данных паркета из ByteArrayOutputStream вместо файла

Я хотел бы преобразовать этот код: import org.apache.hadoop.conf.Configuration; import org.apache

chrismead / 27 сентября 2019

0 голосов

0 ответов

Как выглядит формат Apache Parquet?

Я записываю данные json в Firehose с S3, настроенным как пункт назначения, с firehose, настроенным...

learningMyWayThru / 27 сентября 2019

1 голос

0 ответов

читать паркетный файл с s3 используя pyspark не работает

Я пытаюсь прочитать паркетный файл с S3 и продолжаю получать ошибки.Нет проблем при записи файла...

Moshik Mishaeli / 26 сентября 2019

1 голос

0 ответов

Получить схему из сообщений parquet-avro, извлеченных из kafka

Используя образцы из разных источников, я написал этот метод (соответствующий раздел показан ниже),...

chrismead / 26 сентября 2019