Когда данные находятся в Hive как формат паркета и при попытке чтения из Spark, я сталкиваюсь с...
Как я могу открыть файл .snappy.parquet в python 3.5?До сих пор я использовал этот код: import...
Я выполняю операцию соединения из данных паркета S3 в таблицу JDBC (Postgres), используя столбец в...
У меня есть Dask DataFrames , который содержит индекс, который не является уникальным (client_id)
Я использую Spark 2.3.1 PySpark (AWS EMR) Я получаю ошибки памяти: Контейнер уничтожен YARN за...
Я пытаюсь вставить данные во внешнюю таблицу кустов через spark sql.Мой стол в улье разбит на...
У меня есть датафрейм с более чем 400 столбцами.Большинство столбцов перекошены, т. Е. Значения...
Вот ситуация, с которой я сталкиваюсь. Среда: Настольная ОС: Windows 7 Установленная Apache Drill...
У меня есть несколько файлов .parquet, каждый из которых имеет форму (1126399, 503) и размер 13 МБ
Я читаю DataFrame из паркета и хочу кэшировать его после выбора некоторых вложенных структур. df
У меня есть набор данных паркета, где я сохранил массив byte_array. Я использую Apache Drill для...
У меня есть файл Parquet, который я хотел бы прочитать в своей программе Scala без использования...
Эта опция существует в Spark, и я увидел, что пиарроу write_table() принимает ** kwargs, но после
Я хочу записать свою коллекцию в файл .parquet, чтобы впоследствии ее можно было прочитать с...
Версия Spark: 2.3 hadoop dist: azure Hdinsight 2.6.5 Платформа: Azure Хранилище: BLOB Узлы в...
Я нахожусь в процессе понимания формата файла паркета, и, похоже, для этого нет формальной...
Метод 1: Запрос файла паркета напрямую как: val sqlDF = spark.sql("SELECT columns FROM parquet
У меня есть код задания, который читает содержимое файла паркета.При преобразовании типов данных...
У меня есть код Java, который читает файл Parquet.Когда я изменяю путь этого кода, как показано...
Я использую перераспределение по столбцам для хранения данных в паркете.Но я вижу, что нет
У меня большой набор данных, df, состоящий из событий.Я хочу выписать его, разделив по годам /...
Файл моего паркета получен из CSV, в котором некоторые ячейки экранированы.Например: это значение...
Я пытаюсь использовать Dask для чтения и записи из Google Bucket.Использование группы csv файлов...
У меня есть 25-килобайтный файл паркета «строка» (всего 469,5 КБ), где каждый элемент в паркете...
Я загружаю в записную книжку Microsoft Azure Databrics с Python из WebService следующие данные: {...