Вопросы с тегом паркет

1 голос

1 ответ

Как настроить Kafka Connect Worker для потоковой передачи большего количества сообщений в HDFS

Моя текущая рабочая настройка : NiFi направляет сообщения Avro (справочник реестра Confluent...

deeplay / 27 мая 2019

0 голосов

1 ответ

Потеряю ли я данные при удалении поврежденного файла паркета, записанного потоковой структурой spark?

Я использую spark-структурированную потоковую передачу в качестве потребителя для получения данных...

jay Wong / 25 мая 2019

0 голосов

1 ответ

dask загрузка нескольких файлов паркета с различными вариантами выбора столбцов

Я хочу использовать Dask для загрузки определенных столбцов из множества файлов паркета, которые...

Nick Fernandez / 24 мая 2019

1 голос

1 ответ

Разбор паркетных файлов с помощью Perl

Каков правильный подход к синтаксическому анализу Паркетных файлов с помощью Perl? Кажется, что...

DVK / 23 мая 2019

0 голосов

1 ответ

Оптимальный размер файла и размер паркетного блока

У меня около 100 ГБ данных в день, которые я записываю в S3 с помощью Spark.Формат записи - паркет

Vijayant / 23 мая 2019

0 голосов

1 ответ

Сохраните файл данных pandas со столбцом с 2d массивами в виде файла паркета в python

Я пытаюсь сохранить фрейм данных pandas в файл паркета, используя pd.to_parquet(df). df - это фрейм...

Amir Hossein F / 23 мая 2019

0 голосов

1 ответ

Как записать разделенные файлы паркета в хранилище BLOB-объектов

Я хочу загрузить данные из On Premise SQL SERVER в хранилище больших двоичных объектов с...

naceur ben said / 22 мая 2019

0 голосов

2 ответов

Получение «Внутреннего исключения службы» при попытке запустить чрезвычайно простой сканер AWS-glue с большим количеством столбцов

Я пытаюсь провести некоторое POC-тестирование, чтобы файлы S3 parquet можно было запрашивать через...

Peter Dolan / 21 мая 2019

0 голосов

1 ответ

Flink streaming - изменить имена файлов деталей при использовании StreamingFileSink?

Я пытаюсь использовать потоковую передачу Flink для использования тематических сообщений Kafka и...

Yitzchak Lieberman / 20 мая 2019

0 голосов

0 ответов

Проблема с подключением Apache Arrow к HDFS (удаленная файловая система)

Я хочу подключить pyarrow для чтения и записи файла паркета в формате hdfs. Но я столкнулся с...

UDIT JOSHI / 20 мая 2019

0 голосов

1 ответ

Конструктор ParquetWriter не виден

Я пытаюсь создать объект класса ParquetWriter, который принимает аргумент (OutputFile, Mode,...

UDIT JOSHI / 19 мая 2019

2 голосов

2 ответов

Оптимизация Spark DataFrame / Dataset groupBy через bucketBy

Я изучаю варианты для варианта использования, в котором мы сохраняем набор данных в виде файлов...

zetaprime / 18 мая 2019

1 голос

1 ответ

Эффективно сворачивающиеся группы строк в паркете

У меня есть большой файл Parquet с несколькими небольшими группами строк.Я хотел бы создать новый...

Bill Bradley / 17 мая 2019

0 голосов

1 ответ

Как преобразовать сжатые файлы без заголовков, разделенные по конвейеру, файлы, хранящиеся в S3, в паркет с помощью AWS Glue

В настоящее время у меня есть несколько тысяч сжатых GZIP-файлов без заголовка в формате S3 в S3,...

ikemblem / 17 мая 2019

1 голос

0 ответов

Почему данные в файле паркета не совпадают с исходными данными после загрузки в таблицу BigQuery

После загрузки файла паркета из хранилища Google в таблицу BigQuery. Данные в режиме...

Nurma Sbl / 17 мая 2019

0 голосов

0 ответов

Как прочитать файл Avro Parquet с помощью AvroParquetReader?

Как мне создать AvroParquetReader для чтения, когда я знаю путь к файлу? Все тесты в собственном...

user1332148 / 16 мая 2019

0 голосов

1 ответ

Почему размер файла Parquet уменьшается при копировании с Amazon Athena

У меня есть секционированная таблица Hive, заполненная Hive и сохраненная на S3 как Parquet. Размер...

gsakkis / 16 мая 2019

1 голос

2 ответов

Как проверить поврежденный файл при чтении файлов паркета?

У меня есть некоторые проблемы при чтении паркетов из hdf, которые периодически создаются моими...

jay Wong / 16 мая 2019

1 голос

1 ответ

Ошибка запроса файлов паркета с помощью Apache-Drill: Ошибка в программе чтения записей паркета

Мне нужно использовать файлы паркета, чтобы провести некоторый анализ и обогатить их информацией....

Artyom / 15 мая 2019

0 голосов

1 ответ

Как оптимизировать метод ReadBatch для C ++ Parquet

Я хочу оптимизировать чтение столбца в Паркет, используя метод ReadBatch. Вы передаете количество...

user1154422 / 14 мая 2019

0 голосов

1 ответ

PySpark / Glue: При использовании столбца даты в качестве ключа раздела он всегда преобразуется в строку?

Я использую PySpark на AWS Glue.Появляется при записи набора данных со столбцом даты, используемым...

Jiew Meng / 14 мая 2019

1 голос

1 ответ

HIVE_CANNOT_OPEN_SPLIT: столбецтип null не поддерживается

HIVE_CANNOT_OPEN_SPLIT: Ошибка при открытии Hive split s3: // путь / к / файлу / .snappy.parquet:...

Etisha / 14 мая 2019

0 голосов

1 ответ

Загрузка многократного паркета в спарк-фрейм

Мне нужно загрузить несколько файлов паркета в фрейм данных spark и указать отдельно, из какого...

tunawolf / 14 мая 2019

0 голосов

1 ответ

Как прочитать результаты паркета из S3, которые разбиты на страницы

Мои результаты хранятся в Amazon S3 в формате паркета. Мои требования следующие: У меня есть ведро...

abc123 / 14 мая 2019

0 голосов

1 ответ

Сбой задания AWS Glue ETL с сообщением «Не удалось удалить ключ: parquet-output / _teorary»

Я выполняю задание Glue ETL для таблицы данных CSV, созданной средством поиска клея.Обходчик...

ronald mcdolittle / 13 мая 2019