Вопросы с тегом паркет

0 голосов

0 ответов

Динамический путь вывода для разделенных файлов паркета в Spark

Мы используем MapR FS со скользящими томами, и необходимо выровнять файлы секционированного...

ChernikovP / 25 июня 2018

0 голосов

3 ответов

AWS Glue JOB: команда не выполнена с кодом ошибки 1

У нас есть сценарий Python для нашей склеенной работы, и запускаемые три раза в час для...

rohith / 25 июня 2018

0 голосов

1 ответ

Поддерживает ли Spark паркетное разделение при чтении?

У меня много проблем с поиском ответа на этот вопрос.Допустим, я пишу информационный кадр для...

Adam / 13 июня 2018

0 голосов

2 ответов

Как эффективно разделить большой фрейм данных на множество паркетных файлов?

Рассмотрим следующий фрейм данных import pandas as pd import numpy as np import pyarrow.parquet as...

ℕʘʘḆḽḘ / 12 июня 2018

0 голосов

1 ответ

Pyspark - среднее число дней по году и месяцу

У меня есть файл CSV, который хранится в формате hdf в следующем формате: Business Line,Requisition...

G.Marwah / 12 июня 2018

0 голосов

2 ответов

Как преобразовать результат JSON в паркет?

У меня есть следующий код, который получает некоторые данные из системы Marketo from...

STORM / 12 июня 2018

0 голосов

1 ответ

Как читать определенные столбцы из файла Parquet в Java

Я использую WriteSupport, который знает, как записать мой пользовательский объект 'T' в Parquet

nirmal / 12 июня 2018

0 голосов

0 ответов

Как создать таблицу как авро?

Я создал таблицу (test_load) на основе схемы другой (test).Затем я вставил test_load в другую...

djohon / 11 июня 2018

0 голосов

1 ответ

Чтение паркетных файлов в AWS Glue

Я новичок AWS Glue, который пытается прочитать некоторые объекты паркета, которые есть у меня в S3,...

selle / 11 июня 2018

0 голосов

2 ответов

pandas to_parquet не работает на больших наборах данных

Я пытаюсь сохранить очень большой набор данных, используя pandas to_parquet, и он выходит из строя...

kenissur / 10 июня 2018

0 голосов

2 ответов

Как идентифицировать бэкэнд Pandas для паркета

Я понимаю, что Pandas может читать и записывать файлы Parquet и из них, используя разные бэкэнды:...

Cedric H. / 08 июня 2018

0 голосов

1 ответ

Как зациклить большой файл паркета с генераторами в python?

Можно ли открывать файлы паркета и выполнять итерацию построчно, используя генераторы?Это...

Alpha / 08 июня 2018

0 голосов

0 ответов

Настройки Hadoop Config через spark-shell, похоже, не действуют

Я пытаюсь отредактировать конфигурацию размера блока hadoop через оболочку spark, чтобы...

Sparky / 08 июня 2018

0 голосов

1 ответ

Отметка времени Афины / Улья в файлах паркета, написанных искрой

Мы пишем файлы из спарк и читаем из Афины / Улья.У нас возникла проблема с отметкой времени при...

user2201536 / 06 июня 2018

0 голосов

0 ответов

Наборы данных Spark для преобразования файлов паркета

Я новичок в программировании на spark / scala.Я пытаюсь сохранить наборы данных spark в файл...

Manish / 05 июня 2018

0 голосов

1 ответ

PySpark - оптимизировать количество разделов после чтения паркета

В озере данных паркета, разделенном на year и month, с spark.default.parallelism, равным, например,...

TMichel / 05 июня 2018

0 голосов

1 ответ

Сохранить текущую метку времени в паркете с помощью ParquetWriter

Я использую следующий метод для записи данных в файл паркета: static void toParquet() { String...

User_qwerty / 04 июня 2018

0 голосов

1 ответ

Доступно ли использование предиката для сжатых файлов Parquet?

В Spark 2.2 доступно ли сжатие предикатов для сжатых файлов Parquet (например, GZIP, Snappy)?

Mr.Teen / 02 июня 2018

0 голосов

1 ответ

Преобразование и разделение больших файлов JSON на меньшие файлы Parquet

У меня есть чуть более 1200 JSON-файлов в AWS S3, которые мне нужно преобразовать в Parquet и...

Jørgen Frøland / 01 июня 2018

0 голосов

0 ответов

обрезка паркетной колонны в искре

Я знаю, что паркет поддерживает чтение только выбранных пользователем столбцов.Но когда я использую...

Lionel / 01 июня 2018

0 голосов

1 ответ

Преобразование большого файла паркета в CSV

Я пытаюсь прочитать очень большой файл паркета (10 ГБ), который я не могу контролировать, как...

nate / 31 мая 2018

0 голосов

1 ответ

Получение данных из группы панд для записи в паркет

У меня есть некоторые данные CSV со следующими столбцами: country, region, year, month, price,...

ashic / 31 мая 2018

0 голосов

2 ответов

Конвертировать CSV в файл паркета с помощью Python

Я пытаюсь преобразовать файл .csv в файл .parquet. Файл csv (Temp.csv) имеет следующий формат 1,Jon...

inquisitiveProgrammer / 30 мая 2018

0 голосов

1 ответ

Редактирование паркетных файлов как двоичных

Предполагается, что файлы паркета на AWS S3 (используются для запросов в AWS Athena). Мне нужно...

Nir / 30 мая 2018

0 голосов

1 ответ

распараллелить преобразование одного 16M строки CSV в паркет с DASK

Следующая операция работает, но занимает почти 2 часа: from dask import dataframe as ddf ddf

Daniel Mahler / 24 мая 2018