Вопросы с тегом апаш-искровой SQL

0 голосов

1 ответ

Как использовать GlueMetaStore с spark.sql в JupyterHub

Я хочу использовать GlueMetaStore с spark.sql. Для этого я настроил кластер EMR (5.16) и установил...

mad / 11 сентября 2018

0 голосов

1 ответ

Неоднозначное поведение при добавлении нового столбца в StructType

Я определил функцию в PySpark, которая - def add_ids(X): schema_new = X.schema

Clock Slave / 11 сентября 2018

0 голосов

1 ответ

Spark dataframe: подход объединения для производных столбцов

Учитывая набор данных, как вы видите в приведенном ниже коде (df), я должен иметь возможность...

sujit / 11 сентября 2018

0 голосов

2 ответов

Сравнение предыдущих данных с текущими данными в Spark Scala

Я хочу сравнивать Prev.data с текущими данными по месяцам.У меня есть данные, как показано ниже....

lakshmiprathyusha / 11 сентября 2018

0 голосов

1 ответ

Как зарегистрировать TempTable в SparkSQL

Spark версия: 2.2.0.cloudera2 Обычно мы регистрируем временную таблицу следующим образом: dataframe

D.Eric / 11 сентября 2018

0 голосов

0 ответов

Бесконечная рекурсия (StackOverflowError) в кластере Amazon EMR

Мы запускаем приложение Spark в кластере Amazon EMR. Наш код принимает данные JSON, преобразует их...

JOSE MANUEL RAMIREZ LEON / 10 сентября 2018

0 голосов

0 ответов

Кафка + структурированный поток Что делать, когда основной приемник данных не работает, но при этом все еще читает из кафки?

У меня есть потоковое потоковое приложение, которое читает данные из Kafka и записывает их в базу...

alex / 10 сентября 2018

0 голосов

1 ответ

Как получить конкретные значения из результата df.collect () в PySpark?

У меня есть следующий DataFrame df в PySpark. import pyspark.sql.functions as func df = spark\

Markus / 10 сентября 2018

0 голосов

0 ответов

pyspark читает json, который имеет то же поле, что и строка, и правильную структуру json и значение parse

У меня есть JSON, как показано ниже { "student": { "names": ["aaaa"...

user3607698 / 10 сентября 2018

0 голосов

1 ответ

pyspark игнорирует строку, если тип столбца имеет некоторый шаблон регулярного выражения

У меня есть файл данных в формате json, одно из его полей существует в виде строки, а также типа...

indra / 10 сентября 2018

0 голосов

1 ответ

ошибка искры sql при запуске коррелированного подзапроса

Я запускаю ниже искровой SQL-запрос в Intellij Maven IDE, SELECT seq_no, amount, (select max(b

Kumar / 10 сентября 2018

0 голосов

1 ответ

Задание Spark застревает на последнем этапе импорта из базы данных Oracle - данные не перекошены

Я пытаюсь получить данные из базы данных Oracle и поместить их в AWS S3 , используя Apache Spark 2

Rinaz Belhaj / 10 сентября 2018

0 голосов

1 ответ

Передача данных Spark между методами scala - Производительность

Недавно я разработал приложение Spark Streaming с использованием Scala и Spark. В этом приложении я...

Krishna / 10 сентября 2018

0 голосов

0 ответов

Обнаруженный искрой декартовый продукт, несмотря на то, что условие соединения нетривиально

Я использую Spark 2.3.0 и у меня есть два фрейма данных. Первый, df1, имеет схему: root |-- time:...

rabejens / 10 сентября 2018

0 голосов

2 ответов

PySpark - формат to_date из столбца

В настоящее время я пытаюсь выяснить, как передать аргумент формата String в функцию pyspark...

bublitz / 10 сентября 2018

0 голосов

1 ответ

не могу найти таблицу из улья с помощью spark-submi

это мой простой код. spark.sql("select * from default.some_table") при использовании...

HyungRyuk / 10 сентября 2018

0 голосов

1 ответ

Spark Dataframe комплексный заказ

Juan Gonzalez / 10 сентября 2018

0 голосов

0 ответов

Spark - Оптимизация паркета для нескольких соединений

У меня есть DataFrame, у которого есть столбец id, который используется для соединения с другими...

Daniel Melemed / 10 сентября 2018

0 голосов

3 ответов

Как сохранить возвращенные значения функции UDF в два столбца?

Моя функция get_data возвращает кортеж: два целых значения. get_data_udf = udf(lambda id:...

Markus / 09 сентября 2018

0 голосов

1 ответ

Spark Dataframe - получить все списки пар (Scala)

У меня следующая ситуация: У меня есть датафрейм с массивом в качестве схемы. Теперь я хочу...

Sedir Mohammed / 09 сентября 2018

0 голосов

1 ответ

Spark SQL Java - невозможно создать вложенный объект Row

Вот последняя схема, которую я пытаюсь достичь с помощью Spark SQL |-- references: array (nullable...

Fauzan / 09 сентября 2018

0 голосов

2 ответов

Pandas to PySpark: преобразование столбца списков кортежей в отдельные столбцы для каждого элемента кортежа

Мне нужно преобразовать DataFrame, в котором один из столбцов состоит из списка кортежей, каждый...

ivan_bilan / 09 сентября 2018

0 голосов

0 ответов

Отказоустойчивое восстановление Разделы

Я хочу запустить recoverPartitions для таблиц, которые могут иметь или не иметь разделы. Прямо...

MichaelChirico / 09 сентября 2018

0 голосов

0 ответов

Pyspark: средневзвешенная по столбцу

Например, у меня есть такой набор данных test = spark.createDataFrame([ (0, 1, 5,...

cqcn1991 / 09 сентября 2018

0 голосов

1 ответ

Spark dataframe - заменяет токены общей строки значениями столбцов для каждой строки, используя scala

У меня есть датафрейм с 3 столбцами - число (целое число), имя (строка), цвет (строка). Ниже...

Dwarrior / 09 сентября 2018