Вопросы с тегом апаш-искровой SQL

0 голосов

0 ответов

Bucketing таблиц, по-прежнему приводит к Exchange

Я использовал Bucketing при объединении двух таблиц, но обмен все еще происходит. Я не уверен, что...

RIYA SINGHAL / 24 апреля 2019

1 голос

0 ответов

сводная таблица с дублирующимися записями без агрегирования / группировки с использованием scala и spark-sql

У меня есть ситуация, аналогичная описанной в этом вопросе. Но мой полный проект находится в Scala,...

shripal mehta / 24 апреля 2019

1 голос

1 ответ

Pyspark udf не работает для функции без аргументов, но работает для лямбды без аргументов

Я пытаюсь добавить столбец в мой Spark DataFrame, используя withColumn и udf без аргументов....

kadu / 24 апреля 2019

1 голос

1 ответ

Scala Spark: Как добавить подсписок внутри фрейма данных с дополнительными значениями?

Скажем, у меня есть фрейм данных originalDF, который выглядит следующим образом...

JR3652 / 24 апреля 2019

0 голосов

2 ответов

Искра persist () (тогда действие) действительно сохраняется?

Я всегда понимал, что persist() и cache(), затем действие по активации DAG, рассчитают и сохранят...

Kenny / 24 апреля 2019

0 голосов

1 ответ

Как создать dataframe из dict в другом dataframe?

У меня есть столбец spark-dataframe Выход из df.select('parsed').show():...

vazzart / 23 апреля 2019

1 голос

0 ответов

Spark Добавить метаданные в файлы паркета / ORC

Ежедневно мне нужно обобщать действия клиентов для разных вариантов использования. Чтобы сохранить...

CodeGeek123 / 23 апреля 2019

0 голосов

1 ответ

Как найти количество фраз из фрейма данных в spark scala?

Как найти количество слов в столбце во фрейме данных? Я пытаюсь найти количество слов в столбце...

Hari / 23 апреля 2019

0 голосов

1 ответ

Календарь в SparkSQL

Я хотел бы создать таблицу календаря, используя этот запрос (он работает в обычном SQL) SELECT...

Elbert / 23 апреля 2019

0 голосов

1 ответ

Как сохранить фрейм данных с разными именами таблиц в каждой итерации, используя saveAsTable в pyspark

Платформа: RHEL 7, cloudera CDH 6.2 Hadoop Distrubution, Pyspark 3.7.1 Что я пытался: Я мог...

user1 / 23 апреля 2019

1 голос

1 ответ

Заполнение пропущенных значений в строках с помощью Apache spark

У меня есть особое требование, чтобы заполнить все значения (категории) в столбце.Например, как...

Lalit Lakhotia / 23 апреля 2019

0 голосов

1 ответ

Создать вложенный массив данных DataFrame из существующего DataFrame

Я пытаюсь создать столбец вложенного массива структуры из кадра данных во время операции соединения...

vfrank66 / 23 апреля 2019

1 голос

2 ответов

Spark Scala: обновить значение столбца данных из другого кадра данных

a = +------------+------------+------+ | Name| Nationality|Salary|...

Salam / 22 апреля 2019

0 голосов

1 ответ

Как использовать функцию Макс с условиями Где

Я пишу код для выбора максимального значения из столбца, который не равен двум другим большим...

KRK / 22 апреля 2019

0 голосов

1 ответ

Почему простой UDF выдает неподдерживаемую ошибку?

просто с помощью функции UDF для объединения двух строк. Вот мой код import org.apache.spark.sql

sudarshan / 22 апреля 2019

2 голосов

0 ответов

Есть ли способ кеширования при загрузке?

Есть ли опция с sparksession.read () для кэширования при загрузке?Я читаю XML-файлы из s3, и он...

user2661771 / 22 апреля 2019

3 голосов

3 ответов

Подмножество одного столбца массива с другим (логическим) столбцом массива

У меня есть такой Dataframe (в Pyspark 2.3.1): from pyspark.sql import Row my_data = spark

shadowtalker / 22 апреля 2019

0 голосов

1 ответ

Как исправить приведенную ниже проблему при создании производного столбца в pyspark?

Я пытаюсь выполнить группирование для определенного столбца в кадре данных на основе данных,...

Vineel / 22 апреля 2019

0 голосов

1 ответ

Spark UDF для получения последнего ненулевого значения

Входной набор данных Dataset<Row> inputDS = spark.read.format("avro")

Vicky / 22 апреля 2019

0 голосов

0 ответов

Hive Meta Exception со слишком большим откликом spark sql

Когда я использую таблицу кустов Spark-запросов SQL, «MetaException response too large» выдает...

张元亮 / 22 апреля 2019

0 голосов

1 ответ

Какие оптимизации не приносят пользы UDF?

UDF Spark содержат следующие функции: обнуляемый, детерминированный, dataType и т. Д. Таким образом...

abden003 / 22 апреля 2019

2 голосов

1 ответ

Конвертировать фрейм данных в хэш-карту, используя Spark Scala

Мой фрейм данных выглядит так: +-------------------+-------------+ | Nationality| continent|...

Hanan Atallah / 22 апреля 2019

1 голос

1 ответ

Как автоматически удалить постоянные столбцы в pyspark?

У меня есть искровой фрейм данных в pyspark, и мне нужно удалить все константные столбцы из моего...

kanimbla / 21 апреля 2019

0 голосов

1 ответ

Как изменить значения в фрейме данных PySpark, основываясь на условии того же столбца?

Рассмотрим пример кадра данных: df = +-------+-----+ | tech|state| +-------+-----+ | 70|wa | |...

TJE / 21 апреля 2019

0 голосов

0 ответов

Как можно преобразовать экспоненциальное значение столбца данных в pyspark в один формат, может быть строкой

Это входные данные pispark Dataframe | Finishing_mill_id | Position_float | Entry_Temp |...

nithin / 21 апреля 2019