Я пытаюсь преобразовать RDD [(String, Map [String, Int])] в RDD [String, String, Int] и в конечном...
У меня есть датафрейм, и он был импортирован из mysql dataframe_mysql.show()...
У меня есть таблица в улье, и я читаю эту таблицу в pyspark df_sprk_df from pyspark import...
Я относительно новичок в PySpark. Я пытался кэшировать данные 30 ГБ, потому что мне нужно выполнить...
Мне нужно обработать фрейм данных, содержащий логи (вход и выход) для приложения Данные приведены...
Я использую Spark DataFrame для чтения текстового файла, и каждая строка разделяется одним пробелом...
Когда я пытаюсь установить зависимость пакета "spark-sftp" в моей конфигурации Spark, я получаю...
У меня есть искровой фрейм данных, ради аргумента давайте возьмем его: val df = sc.parallelize(...
Я пытаюсь создать фрейм данных с одной строкой, значения которой равны нулю. val df = Seq(null...
В Spark 2.2 была включена опция Оптимизатора затрат. Документация говорит, что нам нужно...
Я пытаюсь написать метод (который будет выполняться через исполнителя), который будет возвращать...
Я анализировал разработанный код. Я нашел что-то вроде этого. val newDF = df.repartition(1)
Я выполнил один POC о том, как взаимодействовать с RDBMS [MySQL] напрямую с помощью Apache Spark....
Я пытаюсь запустить sql-запрос hive в приложении spark scala и получаю следующую ошибку «Нет плана...
Есть ли способ выбрать всю строку в виде столбца для ввода в фильтр Pyspark udf? У меня есть...
Мне нужно знать, возможно ли удалить строки таблицы в Oracle Database с помощью Spark. Как, я хочу...
Я конвертирую Java-пакеты в Spark, используя Java язык. Существующий код приложения содержит...
У меня есть датафрейм, состоящий из двух массивов двойных чисел. Я хотел бы создать новый столбец,...
У меня есть ситуация, когда я начинаю с озера данных (1 ТБ), и у меня достаточно эвристики для...
У меня есть такой фрейм данных: rdd1 = sc.parallelize([(100,2,1234.5678),(101,3,1234.5678)]) df =...
Я использую структурированную потоковую передачу в формате spark для чтения темы kafka и хочу...
Когда я записываю фрейм данных, скажем, в csv, файл .csv создается для каждого раздела. Предположим...
Я пытаюсь масштабировать конвейер структурированной потоковой передачи с помощью API-интерфейса...
Я работаю с фреймом данных root |-- c: long (nullable = true) |-- data: array (nullable = true) |...
Возможно получить доступ к сеансу искры, созданному работающим сервером Spark Thrift. Я создал...