Вопросы с тегом апаш-искровой SQL

0 голосов

1 ответ

В PySpark есть ли способ динамической регистрации UDF с использованием функций класса Python, заданных во время выполнения?

Я новичок в Python, поэтому извиняюсь, если в моем подходе есть какая-то ошибка У меня есть...

PoojanKothari / 30 мая 2019

1 голос

1 ответ

Почему `unix_timestamp` ведет себя по-разному в Spark 2.3.x / 2.0.x?

Попытка сделать простое преобразование с использованием unix_timestamp ведет себя иначе, чем Spark...

OBarros / 30 мая 2019

0 голосов

1 ответ

Искробезопасное пропаривание без отображения данных в формате («память»)

Когда я делаю ниже, он работает нормально company_info_df.select(col("value"))

Shyam / 30 мая 2019

0 голосов

1 ответ

Прикрепите описание колонок в Apache Spark, используя формат паркета

Я читаю паркет с: df = spark.read.parquet(file_name) И получите столбцы с: df.columns И возвращает...

George C / 29 мая 2019

0 голосов

1 ответ

Как использовать булеву логику внутри фрейма данных pyspark для множеств

Я пытаюсь создать новый столбец в фрейме данных pyspark, который основан на содержимом другого...

a1letterword / 29 мая 2019

0 голосов

2 ответов

Как получить доступ к ячейке в кадре данных

Ошибка при попытке получить значение из DataFrame Я использую pyspark в Databricks, я пытаюсь...

Alejando Attento / 29 мая 2019

0 голосов

1 ответ

Spark Scala для подсчета длины в полях данных

Впервые в Scala. Я создал функцию подстроки в scala, которая требует "pos" и "len", я хочу, чтобы...

AmsKumar / 29 мая 2019

1 голос

0 ответов

Я должен соединить старый DF и новый DF, затем удалить дубликаты, заменить текущие записи на обновленные записи и добавить новые записи со старым DF (DataFrame)

У меня есть таблица сотрудников с несколькими записями, как показано ниже: +---+----+-------+ | Id...

Madhu Telemedia / 29 мая 2019

0 голосов

1 ответ

Сделать 3-ю строку заголовком Dataframe

У меня есть данные в CSV, как показано ниже, первая строка пуста, а вторая строка заполнена только...

Kumar P / 28 мая 2019

0 голосов

2 ответов

Как сделать добавление вставки в sparksql?

У меня есть конечная точка API, написанная sparksql со следующим примером кода. Каждый раз, когда...

Chandler.Huang / 28 мая 2019

0 голосов

1 ответ

Подсчет количества дней в данных транзакции, но с 6 утра до 6 утра следующего дня в PySpark

У меня есть данные транзакции, но мне нужно рассчитать количество посещений на основе countDistinct...

Manas Jani / 28 мая 2019

0 голосов

0 ответов

SortMergeJoin или BroadcastHashJoin?

Простое val postsAndUsers = posts.join(users, $"_OwnerUserId" === users("_Id"),...

Aravind R. Yarram / 28 мая 2019

0 голосов

0 ответов

Искра 2.4.0 дает исключение «Обнаружен неявный декартовой продукт» для левого соединения с пустым правым DF

Похоже, что между искрой 2.2.1 и искрой 2.4.0 поведение левого соединения с пустым правым фреймом...

pedrito maynard-zhang / 27 мая 2019

0 голосов

1 ответ

Невозможно записать фрейм данных в секционированную таблицу партера Hive с помощью pyspark

Я пытаюсь записать свой фрейм данных в таблицу разделов кустов. Формат таблицы кустов - паркет. Но...

Adhish / 27 мая 2019

0 голосов

2 ответов

Как эффективно найти последний раздел из набора данных S3 с помощью Spark

У меня есть набор данных, в который данные добавляются почти каждый день, и его необходимо...

Breathe / 27 мая 2019

0 голосов

2 ответов

проверить, находится ли значение одного столбца между диапазоном другого столбца (массива) в кадре данных

У меня есть фрейм данных, в котором мне нужно сравнить несколько значений и вывести некоторые из...

mythic / 27 мая 2019

0 голосов

0 ответов

Соединение Hive JDBC Via Spark (исключение Nullpointer)

Я пытаюсь запустить спарк с подключением Hive JDBC и получаю исключение нулевого указателя.Та же...

Gowtham SB / 27 мая 2019

2 голосов

1 ответ

Оценить размер ломтиков нанс

У меня есть искровой фрейм с некоторыми значениями null в столбце. Мне нужно сосчитать смежные null...

Giacomo Sachs / 27 мая 2019

0 голосов

1 ответ

сравнить значения двух информационных кадров на основе определенных условий фильтрации, а затем получить количество

Я новичок в искре. Я пишу код pyspark, где у меня есть два кадра данных, таких как: DATAFRAME-1:...

mythic / 27 мая 2019

0 голосов

1 ответ

Размер паркета Spark Output с помощью SparkListener

Я использую onStageCompleted из SparkListener, пытаясь извлечь некоторые полезные данные из...

KilyenOrs / 27 мая 2019

0 голосов

1 ответ

Получить несжатый размер набора данных в HDFS после чтения Spark

Я пытаюсь улучшить производительность моего приложения Spark. С этой целью я пытаюсь определить...

Clock Slave / 27 мая 2019

0 голосов

1 ответ

Как извлечь последний / недавний раздел из списка столбцов разделов день-месяц-день

Я использовал show partitions в spark sql, что дает мне следующее: year=2019/month=1/day=21...

Rahul Rawat / 27 мая 2019

0 голосов

1 ответ

Как создать DataFrame из итератора mapPartitions?

У меня есть DataFrame со столбцом id.Я хотел бы сделать некоторые вычисления для строк для каждого...

Victor Deplasse / 26 мая 2019

0 голосов

0 ответов

метрики искровых приложений (CPU, RAM)

Я работаю над экспериментом, который оценивает производительность выполнения разных запросов...

Mohammed Ragab / 26 мая 2019

0 голосов

2 ответов

Regex для сопоставления и замены "<" и ">"

Мне нужно разбить следующее на несколько токенов в кадре данных Spark Scala. Я не использовал...

Aravind R. Yarram / 25 мая 2019