Вопросы с тегом паркет

0 голосов

1 ответ

когда использовать паркет поверх ORC или ORC поверх паркета?

Я просмотрел множество стековых ссылок и других блогов, и от всех них есть разные ответы.Все ответы...

Rex / 06 декабря 2018

0 голосов

1 ответ

спарк пишет паркет в HDFS очень медленно на нескольких узлах

я хорошо запускаю отправку spark с --master local[*], , но когда я запускаю отправку spark на моем...

SimbaPK / 05 декабря 2018

0 голосов

2 ответов

Использование Spark для обработки набора данных большего размера, чем может уместиться кластер

Я работаю в кластере Spark 2.3 из 5 узлов, каждый из которых имеет 12 ГБ доступной памяти, и...

Roman / 05 декабря 2018

0 голосов

2 ответов

Spark: невозможно загрузить файлы паркета из HDFS до тех пор, пока они не будут «помещены» в hdfs

У меня есть приложение ac #, которое создает и загружает файлы паркета в удаленную HDFS.Если я...

dhalfageme / 04 декабря 2018

0 голосов

0 ответов

Как запросить паркет без Spark?

Мое приложение spark заполняет несколько таблиц SQL, которые обслуживаются службой REST.Данные -...

Igor Gatis / 04 декабря 2018

0 голосов

1 ответ

Какие части паркетного файла имеют значение?

У меня есть куча паркетных данных в структуре, что-то вроде...

Narfanator / 04 декабря 2018

0 голосов

0 ответов

Как найти файл паркета в каталоге для выполнения операции обновления файла паркета

У меня есть список файлов паркета, хранящихся в каталоге. Теперь мне нужно выполнить операцию...

Rajendra Jangir / 03 декабря 2018

0 голосов

1 ответ

Спарк: Авро против Паркет

Теперь, когда Spark 2.4 имеет встроенную поддержку формата Avro, я рассматриваю возможность...

user976850 / 01 декабря 2018

0 голосов

0 ответов

размер файла в улье больше, чем обычно

Я использую песочницу maprR для тестирования различных настроек в кустах и MaprF.Я получил в...

MayaK / 30 ноября 2018

0 голосов

0 ответов

Pyspark путь регулярное выражение отрицательный взгляд

У меня есть паркетные каталоги, названные так: parquetNames = [NAME1,NAME1_MS,NAME2, NAME2_MQ] Я...

xv70 / 30 ноября 2018

0 голосов

1 ответ

Написать файл паркета со сжатием Snappy в Apache Beam

Я пытаюсь записать файл паркета следующим образом в Apache Beam, используя сжатие Snappy records

hlagos / 29 ноября 2018

0 голосов

1 ответ

Количество записей не установлено для этого векторного контейнера

Когда я запускаю: SELECT anum as anum, COUNT(*) as callCount, SUM(dur*1) as callDuration,...

Richard Octovianus / 29 ноября 2018

0 голосов

1 ответ

Писпарк конвертировать комплекс Dataformat

чтение файла паркета с помощью spark df = spark.read.parquet("path_to_file") df.show(2)...

Tushar Kolhe / 29 ноября 2018

0 голосов

1 ответ

Fastparquet, похоже, не давит фильтры

Я создал файл паркета, используя метод данных dask to_parquet, используя fastparquet в качестве...

Apostolos / 29 ноября 2018

0 голосов

1 ответ

Есть ли способ в Pyarrow запросить значения разделов набора данных паркета?

Например, у меня есть набор данных, похожий на этот: dataset ├── a=1 │ └── 1.parquet ├── a=2 │ └──...

XiUpsilon / 29 ноября 2018

0 голосов

2 ответов

PySpark: как читать в столбцах разбиения при чтении паркета

У меня есть данные, хранящиеся в файлах паркета и таблице кустов, разделенные по годам, месяцам и...

ira / 28 ноября 2018

0 голосов

0 ответов

Невозможно отфильтровать файл паркета, используя условие where .... error "unsafe symbol Unstable"

Я не могу обработать файл партера. У меня есть фрейм данных с "family_id" типа String и...

Shyam / 27 ноября 2018

0 голосов

0 ответов

таблицы чтения / записи в Spark

У меня есть несколько таблиц (со строками 100 миллионов строк), которые хранятся в виде внешних...

ITnotIT / 26 ноября 2018

0 голосов

0 ответов

Запросы к внешней таблице Hive не извлекают последние данные из файла паркета

Я записываю потоковые данные в файлы паркета, используя spark.И я создал внешнюю таблицу улья,...

Rima / 25 ноября 2018

0 голосов

2 ответов

Azure Data Factory v2 - неправильное копирование года из паркета в базу данных SQL

У меня странная проблема с Azure Data Factory v2.Существует задание Spark, которое запускает и...

daz-fuller / 22 ноября 2018

0 голосов

0 ответов

Как правильно читать папку, якобы содержащую файлы Parquet из Spark, если папка пуста

Когда я пытаюсь прочитать папку, которая предположительно содержит файлы в формате Parquet, все...

skjagini / 22 ноября 2018

0 голосов

2 ответов

Как записать файл паркетного файла из pandas dataframe в S3 на python

У меня есть датафрейм для панд.я хочу записать этот фрейм данных в файл паркета в S3.Мне нужен...

Alexsander / 21 ноября 2018

0 голосов

1 ответ

Общее выделение превышает 95,00% (960 285 889 байт) кучи памяти - ошибка Pyspark

Я написал скрипт на python 2.7, который использует pyspark для преобразования csv в паркет и другие...

Pythonist / 21 ноября 2018

0 голосов

1 ответ

Как загрузить каталог csv в hdfs как паркет

У меня есть локальная папка на linux с тысячами CSV-файлов. Каждый CSV-файл имеет размер ~ 1 МБ....

Nir / 20 ноября 2018

0 голосов

1 ответ

Контрольный номер целевых файлов паркета

У меня ~ 250 папок.Каждая папка в день.Каждая папка содержит 24 паркетных файла.Мне нужно прочитать...

Amir H. / 20 ноября 2018