Вопросы с тегом паркет

0 голосов

1 ответ

Панды не могут читать файлы паркета, созданные в PySpark

Я пишу файл паркета из Spark DataFrame следующим образом: df.write.parquet("path/myfile

Thomas / 15 января 2019

0 голосов

2 ответов

Преобразование из большого CSV в паркет с использованием ошибки Python

У меня есть CSV-файл, который содержит примерно 200+ столбцов и 1 миллион + строк. Когда я...

Yesaya / 15 января 2019

0 голосов

2 ответов

Ошибка «неопределенная ссылка» из статической библиотеки внешнего проекта паркета

Я хочу связать экспериментальный проект 'parquet' (https://github.com/apache/arrow/tree/master/cpp)...

Anton / 14 января 2019

0 голосов

1 ответ

Работа склеивания AWS для сопоставления строки с форматом даты и времени при преобразовании из CSV в паркет

при преобразовании из csv в паркет с использованием задания ETL для склеивания AWS после...

Kavya shree / 14 января 2019

0 голосов

0 ответов

Сохранение фрейма данных PySpark в файл паркета

Я получаю исключение при попытке сохранить фрейм данных PySpark. Вот мой код с примером игрушки:...

user8270077 / 13 января 2019

0 голосов

1 ответ

emr-5.20.0 Spark 2.4.0 запись партера в s3 занимает слишком много времени

Я использую: ЭЙ-5.20.0 Hadoop 2.8.5 Spark 2.4.0 Одна из моих работ Spark записывает данные паркета...

varshnes / 13 января 2019

0 голосов

1 ответ

Как преобразовать схему паркета в avro в Java / Scala

Допустим, у меня есть файл паркета в файловой системе. Как получить схему паркета и преобразовать...

Artavazd Balayan / 12 января 2019

0 голосов

1 ответ

Как написать файлы Parquet на HDFS с использованием C ++?

Мне нужно записать записи данных в памяти в файл HDFS в формате Parquet с использованием языка C ++

cow / 12 января 2019

0 голосов

0 ответов

Получение неверного формата для значений полей меток времени при загрузке файла паркета с использованием pig

Я пытаюсь загрузить файл паркета в виде свиньи. Одно из полей в файле имеет тип Timestamp. В pig,...

mounica / 12 января 2019

0 голосов

0 ответов

Как переместить большой стол из PSQL в паркет на gcloud через Apache Spark?

У меня большой стол (около 300 ГБ) и баран около (50 ГБ) и 8 процессоров. Я хочу переместить свою...

user1871528 / 11 января 2019

0 голосов

1 ответ

Прочитайте таблицу Hive и преобразуйте ее в Parquet Table

Данные взяты из таблицы Hive, точнее, Первая таблица имеет свойства Serde Library org.apache.hadoop

Paul Velthuis / 11 января 2019

0 голосов

1 ответ

Как сериализовать пользовательские классы как структуры, используя pyarrow в dask dataframes?

У меня есть dask dataframe, в котором есть столбец типа List [MyClass]. Я хочу сохранить этот фрейм...

cheap_grayhat / 11 января 2019

0 голосов

1 ответ

Spark2 Невозможно записать фрейм данных в таблицу кустов паркета: HiveFileFormat`. Не соответствует указанному формату `ParquetFileFormat`

Я пытаюсь сохранить фрейм данных в табличном кусте. В spark 1.6 он работает, но после перехода на 2

youssef grati / 09 января 2019

0 голосов

2 ответов

при запросе к той же таблице spark sql возвращает нулевые значения, но hive и impaly получают нормальные данные?

У меня есть стол в улье Запрос к одной и той же таблице двумя способами: улей или импала: я получаю...

xfly / 09 января 2019

0 голосов

2 ответов

Перераспределение искры не работает, как ожидалось

Я использую spark-sql 2.3.1, я установил spark.sql.shuffle.partitions=40 в моем коде ' val...

Shyam / 08 января 2019

0 голосов

1 ответ

Написание многих файлов для паркета из Spark - Отсутствует несколько файлов для паркета

Мы разработали работу, которая обрабатывает и записывает огромное количество файлов в паркет в...

ibk_jj / 08 января 2019

0 голосов

0 ответов

H2O и установка фрейма назначения из Python

Мы используем python для общения с одним экземпляром h2o (последняя версия 3.22.1.1). Иногда мы...

anthony / 04 января 2019

0 голосов

1 ответ

h2o и parquet - невозможно определить тип ошибки

Мы используем H2O (последняя версия 3.22.1.1) для чтения данных паркета из s3. Мы используем Python...

anthony / 04 января 2019

0 голосов

0 ответов

При записи файлов Spark Parquet файлы в целевой папке не отображаются.

Я сталкиваюсь с проводной ситуацией.Я пытаюсь читать из оракула и записывать в папку hdfs в...

Shyam / 04 января 2019

0 голосов

1 ответ

Сжатие искры при записи во внешнюю таблицу Hive

Я вставляю в внешний улей паркетный стол из Spark 2.1 (используя df.write.insertInto(...)....

Raphael Roth / 03 января 2019

0 голосов

0 ответов

Преобразование HDFS-каталога JSON-файлов в Parquet

У меня очень большая коллекция записей JSON, организованная следующим образом для HDFS: / год /...

kyrre / 03 января 2019

0 голосов

2 ответов

Потоковый паркетный файл python и только даунсэмплинг

У меня есть данные в формате паркета, которые слишком велики, чтобы уместиться в память (6 ГБ). Я...

Sjoseph / 02 января 2019

0 голосов

0 ответов

Нужно ли использовать потоки данных Kinesis (если я использую Firehose) для потоковой передачи данных в паркет?

Рассмотрим архитектуру ниже (источник здесь ): Зачем нам нужны Потоки данных Kinesis ?Если данные...

Amelio Vazquez-Reina / 31 декабря 2018

0 голосов

1 ответ

Pandas ValueError: исходный массив буфера доступен только для чтения

Я пытаюсь прочитать файл Parquet в фрейм данных Pandas.Используя приведенный ниже API (или даже...

idazuwaika / 31 декабря 2018

0 голосов

2 ответов

Панды: Чтение первых n строк из файла паркета?

У меня есть файл паркета, и я хочу прочитать первые n строки из файла во фрейм данных Pandas.То,...

Sanchit Kumar / 31 декабря 2018