Вопросы с тегом апаш-искровой SQL

0 голосов

4 ответов

Как создать пустой фрейм данных в Spark

У меня есть набор таблиц кустов на основе Avro, и мне нужно прочитать данные из них.Поскольку...

Vinay Kumar / 30 мая 2018

0 голосов

1 ответ

Удалить наименее используемое слово из документа в Spark

У меня есть датафрейм, как показано ниже private val sample = Seq( (1, "A B C D E"), (1,...

Mohan / 30 мая 2018

0 голосов

0 ответов

Dataframe каждой итерации строки сохранить в Кассандре

У меня есть следующий код: - def writeToCassandra(cassandraConnector: CassandraConnector) = new...

Pinnacle / 30 мая 2018

0 голосов

0 ответов

Итерация по вложенному элементу в искре

У меня есть фрейм данных со следующей схемой: - scala> final_df.printSchema root |--...

Vinitkumar / 30 мая 2018

0 голосов

1 ответ

Асинхронное совместное использование объектов в Spark

У меня есть базовое понимание искры, и я пытаюсь найти что-то, что может помочь мне достичь...

Keyur Jain / 30 мая 2018

0 голосов

1 ответ

Итерирование фрейма данных Spark с таблицами Hive

У меня очень большой CSV-файл, поэтому я использовал spark и загрузил его в фрейм данных spark. Мне...

A.HADDAD / 30 мая 2018

0 голосов

1 ответ

Данные не записываются в отсортированном формате на целевой таблице оракула через SPARK

У меня есть таблица в улье с приведенной ниже схемой emp_id: int emp_name: string Я создал фрейм...

abhijeet bedagkar / 30 мая 2018

0 голосов

1 ответ

Невозможно взорваться и выделить в том же выражении искры в скале

Вот моя схема root |-- DataPartition: string (nullable = true) |-- TimeStamp: string (nullable =...

Shailendra / 30 мая 2018

0 голосов

0 ответов

как сделать операцию параллельно с помощью искры

У меня есть следующее data.frame в spark import findspark findspark.init() from pyspark.sql import...

quant / 30 мая 2018

0 голосов

0 ответов

Spark: вычислить сложную статистику

У меня есть сильная статистика для расчета с искрой.Из фрейма данных необходимо вычислить около 50...

Rolintocour / 30 мая 2018

0 голосов

3 ответов

Выберите последний элемент массива в DataFrame

Я работаю над проектом и имею дело с некоторыми вложенными датами JSON со сложной схемой /...

fletchr / 30 мая 2018

0 голосов

2 ответов

Как отфильтровать строки на основе предыдущих последовательных строк?

У меня есть требование, когда кадр данных сортируется по col1 (метка времени), и мне нужно...

gagan singh / 29 мая 2018

0 голосов

1 ответ

Фильтровать последние записи на основе условий по столбцам

Вот мой фрейм входных данных DataPartition TimeStamp OrganizationId SegmentId...

Shailendra / 29 мая 2018

0 голосов

1 ответ

Какой тип вывода более эффективен для UDF для возврата массива

Я использую Spark SQL и UDF используется для вычисления столбца типа ArrayType Какой тип вывода...

Yann Moisan / 29 мая 2018

0 голосов

0 ответов

Каков эффективный способ создания набора данных для данной схемы с использованием scala?

У меня есть набор данных с двумя столбцами col1 и col2 типа массива переменной длины.col1 имеет имя...

Hassan Ali / 29 мая 2018

0 голосов

1 ответ

Как удалить запись из Spark DataSet

Я создаю DataSet следующим образом: SparkSession spark = JavaSparkSessionSingleton

Vikas Gite / 28 мая 2018

0 голосов

1 ответ

Spark CountVectorizer возвращает TinyInt

Сначала я задаю свой вопрос на этой странице: Spark CountVectorizer возвращает udt вместо вектора...

Vince Robatel / 28 мая 2018

0 голосов

3 ответов

работа с типом массива в спарк Dataframe

Мое требование - привести все типы данных Decimal в DataFrame к String.Логика отлично работает с...

Vinitkumar / 28 мая 2018

0 голосов

1 ответ

Как создать новую колонку на pyspark при условии?

У меня есть следующее data.frame в spark import findspark findspark.init() from pyspark.sql import...

quant / 28 мая 2018

0 голосов

2 ответов

Запись в mongoDB от Spark

Я пытаюсь записать в MongoDB из spark, для пробного использования я запускаю оболочку spark 2...

Vinitkumar / 28 мая 2018

0 голосов

1 ответ

Изменение «spark.memory.storageFraction» не влияет на столбец «Память хранилища» на вкладке «Исполнители».

Я пытаюсь поиграть с параметром spark.memory.storageFraction , чтобы уменьшить объем памяти,...

Hagai / 28 мая 2018

0 голосов

0 ответов

Вставить через параллельный поток данных в Cassandra

У меня есть следующий код: - collection.foreachRDD(rdd => { if (!rdd.partitions.isEmpty) {...

Pinnacle / 28 мая 2018

0 голосов

1 ответ

Как параллельно записать данные в Spark в Кассандру?

У меня есть датафрейм, который содержит около 100 тыс. Записей.Теперь я хочу записать этот кадр...

Rajendra Jangir / 28 мая 2018

0 голосов

1 ответ

Spark Dataframes: оператор CASE при использовании функции Window PARTITION Синтаксис

Мне нужно проверить условие, если ReasonCode равен "YES", а затем использовать ProcessDate в...

RaAm / 28 мая 2018

0 голосов

1 ответ

Spark Show статистика на основе затрат оптимизатора

Я попытался включить Spark cbo, установив свойство в spark-shell spark.conf.set("spark.sql.cbo

RockSolid / 28 мая 2018