После прочтения документа я знаю, что означает каждая отдельная кодировка. Но я не могу понять,...
Я пытаюсь преобразовать текстовый файл в файл паркета. Я могу найти только «как конвертировать в...
У меня есть этот код, который должен считывать данные из одного столбца из файла паркета,...
Я создал внешнюю таблицу в Redshift, а затем добавил некоторые данные в указанную папку S3. Я...
Я пытаюсь написать файл паркета, используя схему avro. Но всегда получаю эту проблему. Exception in...
Я имею дело с данными, в которых есть некоторые поля с данными, подобными этим: 123456789.00000 .....
Я использую Java-Spark. Я загружаю Parquet данные в таблицу Hive следующим образом: ds.write()
У меня есть ниже входной файл. Мне нужно загрузить этот файл в таблице улья в формате orc и parquet
В настоящее время я использую Apache Parquet-Mr (Java) для обработки файлов Parquet. Я...
Я использую динамические кадры для записи файла паркета в S3, но если файл уже существует, моя...
Я писал данные на Hadoop и куст в формате паркета, используя спарк. Я хочу включить сжатие, но я...
У меня есть 2 экземпляра для одинаковых данных. Таблица кустов myData в формате паркета Файл для...
Пытается прочитать файл Parquet в PySpark, но получает Py4JJavaError. Я даже попытался прочитать...
Когда я пытался преобразовать текстовый файл формы таблицы улья в паркет, я обнаружил, что все...
Кто-нибудь пробовал читать / записывать файл Parquet, используя Apache Beam. Поддержка добавлена...
Если я выполню запрос на перезапись вставки улья, как показано ниже, для сохранения данных в...
у меня струится искра (2.1.1 с cloudera 5.12). с входной кафкой и выходной HDFS (в формате паркета)...
Мне нужно подумать, как записать мои данные в Hadoop. Я использую Spark, я получил сообщение из...
Я пытаюсь превратить дамп Wikipedia CirrusSearch в защищенный паркетом фрейм данных dask,...
Когда я записываю фрейм данных с определенным разделением на диск в виде файла паркета, а затем...
Я пытаюсь создать внешнюю таблицу в базе данных Greenplum на кластере Amazon ec2. Мой исходный файл...
У меня есть несколько неоднородных структурированных файлов, хранящихся в кластере Hadoop. Файлы...
При записи dataframe в parquet с использованием partitionBy: df.write.partitionBy("col1"...
Кажется, что это должно быть легко, как будто это основной вариант использования этого набора...
В настоящее время я выполняю следующую команду sqoop merge --new-data / home / part1 / part-m-00000...