Я пишу файл паркета из Spark DataFrame следующим образом: df.write.parquet("path/myfile
У меня есть CSV-файл, который содержит примерно 200+ столбцов и 1 миллион + строк. Когда я...
Я хочу связать экспериментальный проект 'parquet' (https://github.com/apache/arrow/tree/master/cpp)...
при преобразовании из csv в паркет с использованием задания ETL для склеивания AWS после...
Я получаю исключение при попытке сохранить фрейм данных PySpark. Вот мой код с примером игрушки:...
Я использую: ЭЙ-5.20.0 Hadoop 2.8.5 Spark 2.4.0 Одна из моих работ Spark записывает данные паркета...
Допустим, у меня есть файл паркета в файловой системе. Как получить схему паркета и преобразовать...
Мне нужно записать записи данных в памяти в файл HDFS в формате Parquet с использованием языка C ++
Я пытаюсь загрузить файл паркета в виде свиньи. Одно из полей в файле имеет тип Timestamp. В pig,...
У меня большой стол (около 300 ГБ) и баран около (50 ГБ) и 8 процессоров. Я хочу переместить свою...
Данные взяты из таблицы Hive, точнее, Первая таблица имеет свойства Serde Library org.apache.hadoop
У меня есть dask dataframe, в котором есть столбец типа List [MyClass]. Я хочу сохранить этот фрейм...
Я пытаюсь сохранить фрейм данных в табличном кусте. В spark 1.6 он работает, но после перехода на 2
У меня есть стол в улье Запрос к одной и той же таблице двумя способами: улей или импала: я получаю...
Я использую spark-sql 2.3.1, я установил spark.sql.shuffle.partitions=40 в моем коде ' val...
Мы разработали работу, которая обрабатывает и записывает огромное количество файлов в паркет в...
Мы используем python для общения с одним экземпляром h2o (последняя версия 3.22.1.1). Иногда мы...
Мы используем H2O (последняя версия 3.22.1.1) для чтения данных паркета из s3. Мы используем Python...
Я сталкиваюсь с проводной ситуацией.Я пытаюсь читать из оракула и записывать в папку hdfs в...
Я вставляю в внешний улей паркетный стол из Spark 2.1 (используя df.write.insertInto(...)....
У меня очень большая коллекция записей JSON, организованная следующим образом для HDFS: / год /...
У меня есть данные в формате паркета, которые слишком велики, чтобы уместиться в память (6 ГБ). Я...
Рассмотрим архитектуру ниже (источник здесь ): Зачем нам нужны Потоки данных Kinesis ?Если данные...
Я пытаюсь прочитать файл Parquet в фрейм данных Pandas.Используя приведенный ниже API (или даже...
У меня есть файл паркета, и я хочу прочитать первые n строки из файла во фрейм данных Pandas.То,...