Вопросы с тегом апаш-искровой SQL

0 голосов

0 ответов

Как соединить два набора данных с условием ИЛИ, используя искру

Я использую здесь Java, и мои текущие наборы данных выглядят так: набор данных d1 (где столбец c1...

Prateek Jain / 21 сентября 2018

0 голосов

0 ответов

Модульное тестирование преобразования DStream с помощью Spark Streaming

Я пытаюсь выполнить тестовые случаи из spark-testing-base , я пытаюсь выполнить этот тест, но по...

Srinivas / 21 сентября 2018

0 голосов

1 ответ

спарк jdbc чтение настройки, где таблица без первичного ключа

Я читаю 30 миллионов записей из таблицы оракулов без столбцов первичного ключа.При чтении spark...

Ramakrishna / 21 сентября 2018

0 голосов

1 ответ

Использование оператора when в pyspark - не работает, когда я добавляю в различные части скрипта

Я новичок в PySpark, но мне удалось заставить работать ниже. У меня есть еще 2 требования, оба из...

kikee1222 / 21 сентября 2018

0 голосов

2 ответов

Получить количество нулей на строку в кадре данных PySpark

Вероятно, это дубликат, но каким-то образом я уже давно ищу: Я хочу получить число нулей на строку...

guscht / 21 сентября 2018

0 голосов

1 ответ

sql CAST альтернатива в скале

Я искал альтернативу для SQL-запроса в Spark Scala, в частности, Мой запрос ниже: CAST( COLUMN as...

Sundeep Pidugu / 21 сентября 2018

0 голосов

1 ответ

Pyspark самый надежный способ проверить тип столбца

Если я читаю данные из CSV, по умолчанию все столбцы будут иметь тип «String».Обычно я проверяю...

Ali / 21 сентября 2018

0 голосов

1 ответ

Как добавить поля в существующий паркет и создать новый паркет (Scala или python)

У меня есть существующие паркет (скажем, p1) для чтения в информационный кадр, а затем после...

mdivk / 20 сентября 2018

0 голосов

1 ответ

PySpark: данные не всегда соответствуют схеме - логика для изменения данных

Я новичок в PySpark и работаю над сценарием, читая из .csv файлов. Я четко определил схему ниже, и...

kikee1222 / 20 сентября 2018

0 голосов

1 ответ

PySpark - Как установить значение по умолчанию для pyspark.sql.functions.lag в значение в текущей строке?

Как установить значение по умолчанию для pyspark.sql.functions.lag на значение в текущей строке?...

David / 20 сентября 2018

0 голосов

1 ответ

Дедупировать строки в Spark DataFrame по самой последней отметке времени

У меня есть DataFrame со следующей схемой: root |- documentId |- timestamp |- anotherField Например...

Nik / 20 сентября 2018

0 голосов

0 ответов

Рекурсивная функция работает с pandas dataframe, но версия pyspark dataframe генерирует ошибочные результаты при переходе состояний

Я объясняю проблему с небольшим набором данных с 4 столбцами.У меня есть кумулятивная матрица...

Arun / 20 сентября 2018

0 голосов

0 ответов

Pyspark: среднее (целевое) кодирование для категориальных функций spark dataFrame

Я хочу закодировать категориальные характеристики кадра данных искры (df), используя средний...

Saeid SOHEILY KHAH / 20 сентября 2018

0 голосов

0 ответов

Spark with Hive: таблица или вид не найдены

ApplicationMaster: Исключение класса пользователя: org.apache.spark.sql.AnalysisException: Таблица...

maxime G / 20 сентября 2018

0 голосов

2 ответов

Spark: Как преобразовать несколько строк в одну строку с несколькими столбцами?

ПРИМЕЧАНИЕ. Это только краткий пример данных.Не имеет смысла по сравнению с реальной командой по...

AntonyP / 20 сентября 2018

0 голосов

1 ответ

Измерение производительности Spark Sql

Я пытаюсь сравнить производительность между SparkSql на Parquet и Phoenix на HBase.Запрашиваемый...

Ayan Biswas / 20 сентября 2018

0 голосов

2 ответов

Проблемы настройки Spark

сильный текст Почему этот этап выполняется с 1 потоком в конце?Из-за этого требуется много времени,...

Suresh G / 20 сентября 2018

0 голосов

0 ответов

Почему я получил два разных значения при вызове df.count () и df.rdd.count () с помощью этого сценария sql

Используйте hiveContext.sql, чтобы выполнить скрипт ниже: with nt as ( select label, score from (...

Yuchen Gu / 20 сентября 2018

0 голосов

0 ответов

Невозможно создать Dataframe в apache spark с пустым полем Key из JSON со следующим синтаксисом JSON

Я не могу создать Apache Spark Dataframe со структурированным пустым ключом JSON, как показано ниже...

abdulrahman Mohammed / 20 сентября 2018

0 голосов

3 ответов

Spark SQL регистрозависимый фильтр по шаблону для столбца

Как использовать искровой SQL-фильтр в качестве чувствительного к регистру фильтра на основе...

xyz_scala / 20 сентября 2018

0 голосов

1 ответ

Сохранение таблицы в улье с Java Spark SQL из массива JSON

Dataset<Row> ds = spark.read().option("multiLine", true).option("mode",...

Bar / 20 сентября 2018

0 голосов

1 ответ

Генерация месячных временных меток между двумя датами в фрейме данных pyspark

У меня есть некоторый DataFrame со столбцом "date", и я пытаюсь сгенерировать новый...

LDropl / 19 сентября 2018

0 голосов

1 ответ

Отличительная и суммированная агрегация в Spark одной командой

Я немного тренируюсь в Spark и задаюсь вопросом об оптимизации одной из моих задач.Цель проста:...

kacperdominik / 19 сентября 2018

0 голосов

1 ответ

Spark Agg, чтобы собрать один список для нескольких столбцов

Вот мой текущий код: pipe_exec_df_final_grouped = pipe_exec_df_final

test acc / 19 сентября 2018

0 голосов

0 ответов

Spark распараллелить с функциональностью столбца

Цель Если withColumn еще не работает параллельно, мне нужно распараллелить функциональность...

pehr.ans / 19 сентября 2018