Вопросы с тегом апаш-искровой SQL

0 голосов

0 ответов

Могу ли я получить доступ к таблице, созданной методом createOrReplaceGlobalTempView () в одном сеансе другого сеанса, если первый сеанс остановлен?

Мое требование - создать DataFrame, к которому могут обращаться другие задания. Например, если...

Don Sam / 21 марта 2019

0 голосов

0 ответов

Проверка данных CSV в Pyspark для сценария ETL

У меня есть исходные данные из файла CSV, и я должен проверить их на качество данных....

Jagadeesh Waran / 21 марта 2019

3 голосов

4 ответов

Как предотвратить обработку файлов дважды с помощью Spark DataFrames

Я обрабатываю паркет от S3 TSV до S3 с помощью клея AWS.Из-за входящих файлов, отличных от UTF-8, я...

Chris KL / 21 марта 2019

0 голосов

1 ответ

Spark SQL занимает 4 последовательных временных интервала

Marco_Z / 21 марта 2019

1 голос

0 ответов

Pyspark применяет функцию параллельной сводки ко всем столбцам

Я бы хотел применить функции сводной и настраиваемой статистики ко всем столбцам независимо и...

Kenny / 21 марта 2019

0 голосов

1 ответ

Сгладить файл паркета с вложенными массивами и StructType Spark Scala

Я стремлюсь эффективно сгладить файл паркета в Spark с помощью Scala.Мне было интересно, какой...

Defcon / 20 марта 2019

0 голосов

1 ответ

Запросите Cassandra из Spark, используя CassandraSQLContext

Я пытаюсь запросить Cassandra из Spark, используя CassandraSQLContext, но я получаю странную...

belgacea / 20 марта 2019

0 голосов

1 ответ

Разделение окна по количеству агрегации

Я хочу сделать подсчет за окном. Результат подсчета агрегации должен быть сохранен в новом столбце:...

SimbaPK / 20 марта 2019

1 голос

1 ответ

как создать фрейм данных на основе даты первого появления и на основе дополнительных столбцов в каждом столбце идентификатора

я пытаюсь создать фрейм данных со следующим условием: У меня есть несколько идентификаторов,...

Nika / 20 марта 2019

0 голосов

0 ответов

Разверните векторные столбцы в скалярные столбцы в Apache Spark в pyspark

Как расширить векторный столбец, присутствующий в кадре данных искры, в скалярные столбцы

Yashwanth Madaka / 20 марта 2019

0 голосов

0 ответов

Spark - метод для исключения некоторых выражений при фильтрации строк в DataFrame

Я написал метод фильтрации кадра данных с использованием выражений SQL.Так как некоторые sqlStr...

samba / 20 марта 2019

0 голосов

1 ответ

«Превышен лимит накладных расходов GC» при выполнении двух действий в одном задании Spark; нет проблем при запуске отдельно

У меня есть следующий код Spark SQL, который проверяет отсутствие определенных дат в больших...

pederpansen / 20 марта 2019

0 голосов

1 ответ

Обрезать столбцы Spark DataFrame по значениям 95% и 5%

Я пытаюсь создать собственный преобразователь для своей модели, используя PySpark & Spark 2.2. Я...

Harelz / 20 марта 2019

0 голосов

2 ответов

Как создать новые столбцы в фрейме данных, используя Spark Scala на основе разных строковых паттернов

Шаг 1. Я создал Dataframe df с двумя столбцами «COLUMN A» и «COLUMN B» типа string. Шаг 2: Я создал...

BigData newbie / 20 марта 2019

0 голосов

1 ответ

Передача всей строки в качестве аргумента для запуска udf через фрейм данных spark - создает исключение AnalysisException

Я пытаюсь передать всю строку в spark udf вместе с несколькими другими аргументами. Я не использую...

Manoranjan / 20 марта 2019

0 голосов

0 ответов

получение исключения нулевого указателя при доступе к RDD [org.apache.spark.sql.Dataframe]

Мой код: { val data = sc.wholeTextFiles("file:///home/cloudera/Desktop/sampledata") data:...

Kumar / 20 марта 2019

0 голосов

1 ответ

Потеря точности при переходе на Spark для больших десятичных знаков

Ниже приведен пример тестового кода и его вывод. Я вижу, что java bigDecimal хранит все цифры, в то...

user2033347 / 20 марта 2019

0 голосов

0 ответов

Преобразовать столбец PySpark из целых чисел или bigint для хранения запятых

На данный момент у меня есть функция в PySpark, которая: def df_to_jira (df): «»» Необходимо...

Anish Nair / 19 марта 2019

0 голосов

1 ответ

Как передать List [String] для выбора или selectExpr в искре, когда строка также содержит UDF

У меня есть List [String], как показано ниже val colList = List(verifyLength($"col1",...

Goutam Pradhan / 19 марта 2019

0 голосов

0 ответов

В искровом датафрейме

DataFrame column1 ant get 0.75 maven put -0.75 большие данные get 1.25 scala sdk put 3.45 Отдельные...

Divya / 19 марта 2019

0 голосов

1 ответ

Как преобразовать странную строку даты и времени с часовым поясом в метку времени (PySpark)

У меня есть столбец с именем datetime, представляющий собой строку вида Month Name DD YYYY H:MM:SS...

MrL / 19 марта 2019

2 голосов

2 ответов

случайно инициализированный кадр данных в искре

Мне нужно создать фрейм данных с n строками, и каждое значение столбца строки инициализируется...

Sasank Annavarapu / 19 марта 2019

0 голосов

3 ответов

Конвертировать 20180918 в 2018-09-18 в Spark?

Данный фрейм данных: +-----------------+---------+-----------------+ | user_id| id|...

Rishabh Ojha / 19 марта 2019

1 голос

2 ответов

Несколько операций / агрегатов на одном и том же Dataframe / Dataset в Spark структурированной потоковой передаче

Я использую Spark 2.3.2. Я получаю данные от Кафки.Я должен сделать несколько агрегаций на одних и...

ogma / 19 марта 2019

0 голосов

1 ответ

Как сгенерировать агрегацию длинных выражений набора данных Spark в цикле?

Я использую Java Spark для статистики набора данных. Мне нужно объединить набор данных по множеству...

BerSerK / 19 марта 2019