Вопросы с тегом апаш-искровой-sql

0 голосов

0 ответов

Улучшение производительности Join in Query

У меня есть sql (ниже), где мы должны сравнить некоторые поля в основной таблице с существующей...

marie20 / 08 ноября 2019

1 голос

2 ответов

Не могу отсортировать по дате правильно

Вместо того, чтобы упорядочивать по дням, это упорядочивать по месяцам. Я пробовал str_to_date, но...

SakuraFreak / 08 ноября 2019

0 голосов

0 ответов

Spark сравнивает два кадра данных

Элемент списка Необходимо сравнить два кадра данных и создать третий кадр данных, чтобы...

Spark-dev / 08 ноября 2019

0 голосов

0 ответов

SparkSQL запустить rpad на массиве

Я хочу проверить, является ли 'aa' подстрокой какой-либо из строк массива (столбца) строк. Согласно...

Boern / 08 ноября 2019

0 голосов

1 ответ

Pyspark: динамически генерировать условие для предложения when () во время выполнения

Я прочитал CSV-файл в pyspark dataframe. Теперь, если я применяю условия в предложении when(), он...

Nandha / 08 ноября 2019

0 голосов

2 ответов

Как фильтровать значения столбца в массиве в Pyspark

У меня есть pyspark Dataframe, который содержит много столбцов, в том числе столбец типа Array и...

daddou06 / 08 ноября 2019

1 голос

2 ответов

Обновление метаданных для Dataframe при чтении файла паркета

Я пытаюсь прочитать файл паркета как информационный фрейм, который будет периодически обновляться...

wazza / 08 ноября 2019

0 голосов

0 ответов

искровое соединение с источниками данных от главного узла или главного и подчиненного

У меня есть спарк-кластер с одним ведущим (имя хоста: masterA) и двумя подчиненными (имена хостов:...

Pruthvi Raj / 08 ноября 2019

0 голосов

2 ответов

Собирать в массив только ненулевые столбцы каждой строки

Сложность в том, что я стараюсь избегать UDF как можно больше. У меня есть набор данных "wordsDS",...

mjat / 07 ноября 2019

0 голосов

0 ответов

Исключающие UDAF для параллельной обработки данных на уровне группы, но в каждой группе последовательно обрабатываются строки

Мы подробно обсудили нашу постановку проблемы здесь spark sql: Как добиться параллельной обработки...

3Nath / 07 ноября 2019

0 голосов

2 ответов

Разделить один столбец на несколько столбцов в Spark DataFrame с помощью разделителя запятых

Я хочу создать несколько столбцов из одного столбца из Dataframe, используя запятую в Java Spark. У...

Tamil / 07 ноября 2019

0 голосов

2 ответов

ClassCastException на dataset.show

Моя схема: StructField[] fields = new StructField[] { DataTypes.createStructField("id",...

Sterling Duchess / 07 ноября 2019

0 голосов

0 ответов

Стратегия объединения Spark SQL

Я знаю, что сравнение стратегий объединения - сложная проблема. Но в обычных случаях я могу...

Bostonian / 07 ноября 2019

2 голосов

1 ответ

Использование Pyspark для преобразования столбца из строки в метку времени

У меня есть фрейм данных pyspark с 2 столбцами (Violation_Time, Time_First_Observed), которые...

wjie08 / 07 ноября 2019

0 голосов

0 ответов

Динамический ArrayType в искровой CSV

У меня есть CSV, для которого мне нужно создать df, который имеет столбец ArrayType, проблема в том...

Andy Smith / 07 ноября 2019

0 голосов

0 ответов

Как построить фрейм данных Scala с переменным количеством атрибутов записи?

Я только начал изучать Scala для моего официального проекта. Я не смог решить следующий вариант...

Manas Mukherjee / 07 ноября 2019

0 голосов

1 ответ

Оценка основной статистики для таблиц Spark SQL

Я знаю, что мы могли бы явно ANALYZE таблицу в Spark SQL, чтобы мы могли получить некоторую точную...

Bostonian / 07 ноября 2019

0 голосов

0 ответов

Spark: можно ли увеличить буфер пиарроу?

Я пытаюсь передать большой (~ 30 ГБ) фрейм данных в pandas_udf в spark следующим образом: @f

Megan / 07 ноября 2019

0 голосов

1 ответ

Есть ли способ SQL, чтобы узнать размер физической памяти таблицы в Spark SQL

Базовый источник данных хранится в формате Parquet и предоставляется через Hive. Можно ли...

Bostonian / 07 ноября 2019

1 голос

2 ответов

Apache Spark: как 200 задач-редукторов могут агрегировать 20000+ картографических результатов?

Обновленный вопрос Что мне непонятно => в ShuffleMapStage каждый Mapper создаст .data и .index file...

SanBan / 07 ноября 2019

0 голосов

0 ответов

Использование Pyspark-Free ресурсов и дополнительная очистка после завершения скрипта

Подскажите, пожалуйста, как правильно завершить скрипт pyspark. В настоящее время у меня есть...

FlorentinaP / 06 ноября 2019

1 голос

1 ответ

Почему действие по подсчету искры выполнено в три этапа

Я загрузил CSV-файл. Повторно разделил его на 4, а затем принял к сведению DataFrame. И когда я...

ѕтƒ / 06 ноября 2019

0 голосов

0 ответов

Наследовать разделы из исходного сегмента S3 при записи в новый сегмент S3

Возьмем, например, контейнер S3 следующей структуры: s3://francesco-totti/day/hour/min/*.json.lzo...

pippa dupree / 06 ноября 2019

1 голос

0 ответов

Задание Spark выполняется в режиме клиента, но не в кластерном режиме из-за проблем с разрешениями

Я запускаю свое искро-задание, используя файл сценария spark-sbumit, как показано ниже export...

Shyam / 06 ноября 2019

1 голос

1 ответ

Как напечатать переменные или кадры данных на консоль в моей программе PySpark?

Я новичок в Spark, пытаюсь использовать его так же, как я использовал Pandas для анализа данных. В...

meboyhe / 06 ноября 2019