Я пытался передать класс paramiko.sftp_file.SFTPFile вместо URL файла для pandas.read_parquet, и он...
Как объединить небольшие файлы паркета в HIVE, когда ниже на месте. Разделы создаются динамически...
У меня есть Vertica DB, которую предполагается использовать для моих «горячих» данных. Я понял, что...
Я изучал плюсы и минусы использования авро, паркета и других источников данных для проекта.Если я...
Я пытаюсь оптимизировать производительность для работы Spark, используя метод bucketing . Я читаю...
Я пытаюсь преобразовать большой файл паркета в CSV. Так как объем моей оперативной памяти...
У меня есть данные, записанные из spark, в файлы паркета в gcs, разбитые на столбец даты.Данные в...
Я просматривал документацию Athena и PrestoDB и не могу найти ссылку на ограничение количества...
Используя parquet-mr@1.11.0, у меня есть такая схема: schema message page { required binary url...
Я использую Apache Nifi 1.9.2 для загрузки данных из реляционной базы данных в Google Cloud Storage
Я записал фрейм данных в файл паркета, используя спарк, который имеет 100 подкаталогов (каждый...
Я работаю над Databricks, платформой обработки данных на основе Spark с HDFS-подобной файловой...
У меня есть файл паркета /df, сохраненный в формате hdf с 120 разделами.Размер каждого раздела в...
Фон У меня есть 8k паркетных файлов, представляющих таблицу, которую я хочу поместить в отдельный...
Я пытаюсь прочитать файл паркета с помощью Impala. impala-shell> SELECT * FROM `/path/in/hdfs/*
У меня есть папка с более чем 100000 "csv" файлами. К сожалению, эти CSV-файлы еще не в правильном...
Скажем, у меня есть 4 блока инструкций искры, представленных как Dataframe A, B, C и D. Dataframe...
У меня есть темы в Кафке, которые хранятся в формате Avro. Я хотел бы использовать всю тему...
У меня есть искровой фрейм данных, который я хочу сохранить как паркет, а затем загрузить его с...
Я написал DataFrame с pySpark в HDFS с помощью этой команды: df.repartition(col("year"))\...
Я ищу способ изменить таблицу данных паркета в HIVE , чтобы удалить некоторые поля. Таблица...
Я пытаюсь прочитать каталог секционированного паркета, хранящийся в корзине s3. Ради этого вопроса...
У меня есть сценарий в моем проекте, где я читаю сообщения темы kafka, используя версию spark-sql-2
У меня есть набор данных для паркета, хранящийся на s3, и я хотел бы запросить определенные строки...
У меня есть таблица PySpark, где многие столбцы имеют тип VectorUDT. Эти столбцы были созданы с...