Вопросы с тегом паркет

0 голосов

1 ответ

Структура вложенных массивов BigQuery с AVRO или Parquet

Я пытаюсь загрузить данные Parquet в Google BigQuery, чтобы воспользоваться эффективным форматом...

John Hurst / 09 мая 2018

0 голосов

0 ответов

Читайте файл паркета столбец за столбцом

У меня есть файл паркета, содержащий архивные данные из таблицы RDBMS (поэтому в основном уровень...

yetAnotherCoder / 06 мая 2018

0 голосов

1 ответ

s3 parquet write - слишком много разделов, медленное написание

У меня есть работа с scala spark для записи в s3 в виде файла паркета. Пока это 6 миллиардов...

ds_user / 06 мая 2018

0 голосов

1 ответ

При создании нового большого запроса внешняя таблица с паркетными файлами на gcs. Ошибка показа

Я пытался создать большую внешнюю таблицу запросов с файлами паркетных файлов в gcs. Это показывает...

Bruce Mu / 05 мая 2018

0 голосов

1 ответ

Написание паркетных файлов из Python без панд

Мне нужно преобразовать данные из JSON в паркет как часть конвейера ETL. В настоящее время я делаю...

Milan Cermak / 04 мая 2018

0 голосов

1 ответ

Как обрабатывать нулевые значения при записи в паркет из Spark

До недавнего времени parquet не поддерживал null значения - сомнительная предпосылка. Фактически,...

javadba / 03 мая 2018

0 голосов

1 ответ

Как заставить паркет dtypes при сохранении pd.DataFrame?

Есть ли способ заставить файл паркета кодировать столбец pd.DataFrame в качестве заданного типа,...

HugoMailhot / 01 мая 2018

0 голосов

0 ответов

Spark - Эффективное разделение ключей, можете ли вы объединить методы разделения?

У меня есть паркетный файл в HDFS, размером около 1 ТБ. В настоящее время данные разбиты методом по...

AMcNall / 30 апреля 2018

0 голосов

1 ответ

Можно ли сравнить два файла паркета?

Мне не удалось найти инструмент или библиотеку с открытым исходным кодом, чтобы сравнить два файла...

artziff / 28 апреля 2018

0 голосов

1 ответ

Ошибка памяти Dask при группировании DF из данных паркета

Я создал набор данных паркета, прочитав данные в pandas df, используя get_dummies() для данных и...

OverflowingTheGlass / 27 апреля 2018

0 голосов

1 ответ

Исключение при запросе десятичных полей в Apache Drill

Я пытаюсь выполнить следующий запрос в Apache Drill. Я запрашиваю данные, хранящиеся в файлах...

Seth IK / 27 апреля 2018

0 голосов

1 ответ

Карта искры в ряд данных

Я пытаюсь создать RDD с использованием набора данных, но не могу найти способ сопоставить каждую...

Fbkk / 27 апреля 2018

0 голосов

0 ответов

Строка карты набора данных Spark 'не может разрешить карту метода (<лямбда-выражение>)'

Попытка создать RDD из набора данных, пытаясь сопоставить каждую строку в наборе данных. Получение...

Fbkk / 26 апреля 2018

0 голосов

1 ответ

Отображение строки набора данных: «Целевой тип этого выражения должен быть функциональным интерфейсом»

При попытке сопоставления со строкой набора данных, но с большим количеством проблем, я получаю...

Fbkk / 25 апреля 2018