Вопросы с тегом апаш-искровой SQL

0 голосов

2 ответов

Свести RDD [(String, Map [String, Int])] к RDD [String, String, Int]

Я пытаюсь преобразовать RDD [(String, Map [String, Int])] в RDD [String, String, Int] и в конечном...

Rasika / 29 августа 2018

0 голосов

2 ответов

Применить логику для определенного столбца в кадре данных в искре

У меня есть датафрейм, и он был импортирован из mysql dataframe_mysql.show()...

Rajkiran / 29 августа 2018

0 голосов

2 ответов

pivepark Hive Context - чтение таблицы с кодировкой UTF-8

У меня есть таблица в улье, и я читаю эту таблицу в pyspark df_sprk_df from pyspark import...

Shivpe_R / 29 августа 2018

0 голосов

1 ответ

Pyspark: java.lang.OutOfMemoryError: превышен предел издержек GC

Я относительно новичок в PySpark. Я пытался кэшировать данные 30 ГБ, потому что мне нужно выполнить...

lU5er / 29 августа 2018

0 голосов

1 ответ

как объединить строки в dataFrame на основе условия в pyspark

Мне нужно обработать фрейм данных, содержащий логи (вход и выход) для приложения Данные приведены...

Purmanund Sookun / 29 августа 2018

0 голосов

1 ответ

Как читать текстовый файл без имени столбца, используя спарк Dataframe в Java

Я использую Spark DataFrame для чтения текстового файла, и каждая строка разделяется одним пробелом...

DuFei / 29 августа 2018

0 голосов

1 ответ

Как добавить любую новую библиотеку, такую как spark-sftp, в мой код Pyspark?

Когда я пытаюсь установить зависимость пакета "spark-sftp" в моей конфигурации Spark, я получаю...

Manideep / 29 августа 2018

0 голосов

1 ответ

Искра парных различий внутри групп

У меня есть искровой фрейм данных, ради аргумента давайте возьмем его: val df = sc.parallelize(...

Paul / 28 августа 2018

0 голосов

4 ответов

Инициализация DataFrame с нулевыми значениями

Я пытаюсь создать фрейм данных с одной строкой, значения которой равны нулю. val df = Seq(null...

Achyuth / 28 августа 2018

0 голосов

2 ответов

spark.sql.cbo.enabled = true с таблицей Hive

В Spark 2.2 была включена опция Оптимизатора затрат. Документация говорит, что нам нужно...

Prashant / 28 августа 2018

0 голосов

1 ответ

Как программно найти версию Spark в узле исполнителя?

Я пытаюсь написать метод (который будет выполняться через исполнителя), который будет возвращать...

Nikita Poberezkin / 28 августа 2018

0 голосов

0 ответов

Что происходит, когда мы делаем перераспределение на уже перераспределенном кадре данных?

Я анализировал разработанный код. Я нашел что-то вроде этого. val newDF = df.repartition(1)

Dasarathy D R / 28 августа 2018

0 голосов

1 ответ

Является ли Apache Spark верным вариантом для обработки данных непосредственно из RDBMS?

Я выполнил один POC о том, как взаимодействовать с RDBMS [MySQL] напрямую с помощью Apache Spark....

Chauhan B / 28 августа 2018

0 голосов

2 ответов

java.lang.AssertionError: утверждение не выполнено: нет плана для HiveTableRelation

Я пытаюсь запустить sql-запрос hive в приложении spark scala и получаю следующую ошибку «Нет плана...

Ievgen Guliaiev / 28 августа 2018

0 голосов

1 ответ

Фильтр Pyspark Dataframe с udf на всю строку

Есть ли способ выбрать всю строку в виде столбца для ввода в фильтр Pyspark udf? У меня есть...

user2399973 / 28 августа 2018

0 голосов

1 ответ

Можно ли выполнять операции удаления и обновления непосредственно над таблицами внешних баз данных, как в ORACLE, с помощью Spark

Мне нужно знать, возможно ли удалить строки таблицы в Oracle Database с помощью Spark. Как, я хочу...

user9207408 / 28 августа 2018

0 голосов

0 ответов

Альтернатива для операторов DELETE и UPDATE в SPARK

Я конвертирую Java-пакеты в Spark, используя Java язык. Существующий код приложения содержит...

Raj / 28 августа 2018

0 голосов

2 ответов

Перебирать элементы столбцов Scala

У меня есть датафрейм, состоящий из двух массивов двойных чисел. Я хотел бы создать новый столбец,...

user124123 / 28 августа 2018

0 голосов

0 ответов

Стоит ли перераспределять по столбцам для луж данных и групповых агрегаций?

У меня есть ситуация, когда я начинаю с озера данных (1 ТБ), и у меня достаточно эвристики для...

Renée / 28 августа 2018

0 голосов

2 ответов

Использование значения столбца при приведении другого столбца в кадре данных искры

У меня есть такой фрейм данных: rdd1 = sc.parallelize([(100,2,1234.5678),(101,3,1234.5678)]) df =...

vishnu ram / 28 августа 2018

0 голосов

0 ответов

Каков оптимальный способ синтаксического анализа следующего сообщения Кафки JSON в фрейм данных pyspark?

Я использую структурированную потоковую передачу в формате spark для чтения темы kafka и хочу...

Nikul Patel / 27 августа 2018

0 голосов

2 ответов

Ограничение максимального размера раздела данных

Когда я записываю фрейм данных, скажем, в csv, файл .csv создается для каждого раздела. Предположим...

Paul Reiners / 27 августа 2018

0 голосов

1 ответ

Длинная пауза GC на структурированной потоковой передаче Apache Spark в Kubernetes

Я пытаюсь масштабировать конвейер структурированной потоковой передачи с помощью API-интерфейса...

Sean O / 27 августа 2018

0 голосов

1 ответ

Фильтрация dataFrame по элементу из столбца массива

Я работаю с фреймом данных root |-- c: long (nullable = true) |-- data: array (nullable = true) |...

Chaouki / 27 августа 2018

0 голосов

0 ответов

Получите доступ к сеансу спекуляции комиссионного сервера программно

Возможно получить доступ к сеансу искры, созданному работающим сервером Spark Thrift. Я создал...

Deepak Rawat / 27 августа 2018