Вопросы с тегом паркет

0 голосов

0 ответов

SQL-запрос к паркетной таблице java.lang.UnsupportedOperationException

Когда данные находятся в Hive как формат паркета и при попытке чтения из Spark, я сталкиваюсь с...

Ayan Biswas / 05 октября 2018

0 голосов

1 ответ

Как я могу открыть файл .snappy.parquet в python?

Как я могу открыть файл .snappy.parquet в python 3.5?До сих пор я использовал этот код: import...

user9439906 / 05 октября 2018

0 голосов

2 ответов

Оптимизация и пакетное соединение паркета / JDBC

Я выполняю операцию соединения из данных паркета S3 в таблицу JDBC (Postgres), используя столбец в...

Narfanator / 04 октября 2018

0 голосов

1 ответ

Передел Dask DataFrame, чтобы получить даже разделы

У меня есть Dask DataFrames , который содержит индекс, который не является уникальным (client_id)

Szymon / 04 октября 2018

0 голосов

0 ответов

Spark CSV GZip для паркета?

Я использую Spark 2.3.1 PySpark (AWS EMR) Я получаю ошибки памяти: Контейнер уничтожен YARN за...

Acid Rider / 04 октября 2018

0 голосов

2 ответов

Spark Sql - Ошибка вставки во внешнюю таблицу улья

Я пытаюсь вставить данные во внешнюю таблицу кустов через spark sql.Мой стол в улье разбит на...

Ayan Biswas / 04 октября 2018

0 голосов

1 ответ

Исполнение Spark Parquet с колоннами MapType

У меня есть датафрейм с более чем 400 столбцами.Большинство столбцов перекошены, т. Е. Значения...

Avishek Bhattacharya / 03 октября 2018

0 голосов

2 ответов

Apache Drill: как запросить файл Parquet и вывести результат в файл CSV

Вот ситуация, с которой я сталкиваюсь. Среда: Настольная ОС: Windows 7 Установленная Apache Drill...

Keshav Prabhu / 03 октября 2018

0 голосов

1 ответ

Загрузите несколько файлов паркета в датафрейм для анализа

У меня есть несколько файлов .parquet, каждый из которых имеет форму (1126399, 503) и размер 13 МБ

schaefferda / 02 октября 2018

0 голосов

1 ответ

Оптимизирует ли Spark хранилище при кэшировании вложенного столбца

Я читаю DataFrame из паркета и хочу кэшировать его после выбора некоторых вложенных структур. df

Yann Moisan / 02 октября 2018

0 голосов

1 ответ

Выберите двоичные данные из паркета, используя Drill

У меня есть набор данных паркета, где я сохранил массив byte_array. Я использую Apache Drill для...

user1302023 / 01 октября 2018

0 голосов

0 ответов

Читать паркет в скале без искры

У меня есть файл Parquet, который я хотел бы прочитать в своей программе Scala без использования...

Make42 / 01 октября 2018

0 голосов

1 ответ

Можно ли написать паркетную статистику с помощью pyarrow?

Эта опция существует в Spark, и я увидел, что пиарроу write_table() принимает ** kwargs, но после

Jay / 29 сентября 2018

0 голосов

0 ответов

Написание паркетных файлов с Scala для искры без искры в качестве зависимости

Я хочу записать свою коллекцию в файл .parquet, чтобы впоследствии ее можно было прочитать с...

Aivaras / 28 сентября 2018

0 голосов

1 ответ

Spark Executor низкая производительность при записи данных в паркет

Версия Spark: 2.3 hadoop dist: azure Hdinsight 2.6.5 Платформа: Azure Хранилище: BLOB Узлы в...

Guru / 28 сентября 2018

0 голосов

1 ответ

Есть ли официальная спецификация Apache Parquet?

Я нахожусь в процессе понимания формата файла паркета, и, похоже, для этого нет формальной...

user1154422 / 27 сентября 2018

0 голосов

2 ответов

Прямой запрос файла против запроса фрейма данных после чтения файла

Метод 1: Запрос файла паркета напрямую как: val sqlDF = spark.sql("SELECT columns FROM parquet

Vandhana / 27 сентября 2018

0 голосов

0 ответов

как читать поля меток времени из файла паркета

У меня есть код задания, который читает содержимое файла паркета.При преобразовании типов данных...

Rajasekar / 27 сентября 2018

0 голосов

0 ответов

Имеется ли образец кода для чтения файла паркета из корзины S3 с использованием роли IAM (клиент по умолчанию)

У меня есть код Java, который читает файл Parquet.Когда я изменяю путь этого кода, как показано...

Rajasekar / 27 сентября 2018

0 голосов

1 ответ

Spark DataFrame Перераспределение и Паркет Перегородка

Я использую перераспределение по столбцам для хранения данных в паркете.Но я вижу, что нет

Ayan Biswas / 26 сентября 2018

0 голосов

1 ответ

Эффективно написать один выходной файл при разбиении по столбцам

У меня большой набор данных, df, состоящий из событий.Я хочу выписать его, разделив по годам /...

Narfanator / 25 сентября 2018

0 голосов

1 ответ

Python Spark - экранирование кавычек в файле партера

Файл моего паркета получен из CSV, в котором некоторые ячейки экранированы.Например: это значение...

Sashank / 25 сентября 2018

0 голосов

1 ответ

Использование Dask для чтения паркетных файлов из облачного хранилища Google

Я пытаюсь использовать Dask для чтения и записи из Google Bucket.Использование группы csv файлов...

cd98 / 24 сентября 2018

0 голосов

1 ответ

Как заставить Афину / Престо распознать индекс паркета?

У меня есть 25-килобайтный файл паркета «строка» (всего 469,5 КБ), где каждый элемент в паркете...

micah / 24 сентября 2018

0 голосов

0 ответов

Кирпичи данных Azure записывают JSON-данные в файл паркетной ошибки: ошибка типа: ошибка: невозможно вывести схему для типа

Я загружаю в записную книжку Microsoft Azure Databrics с Python из WebService следующие данные: {...

STORM / 23 сентября 2018