У меня настроен честный планировщик, как указано в документе: conf.set("spark.scheduler
Чтение файла паркета работает, но получает формат с отступом вместо желаемого формата вывода JSON....
Я пытаюсь преобразовать RDD [(String, Map [String, Int])] в RDD [String, String, Int] и в конечном...
В doc указывается, что можно запланировать несколько заданий в одном сеансе / контексте Spark....
Я хочу дискретизировать переменную, используя R, предпочтительно SparkR, чтобы желаемые результаты...
Предположим, я использую Spark для обучения модели логистической регрессии и настроил ее на 100...
Со страницы spark-nlp GitGub Я скачал файл .zip, содержащий предварительно обученную NerCRFModel....
У меня есть data_date, который дает формат ггггммдд: beginDate = Some(LocalDate
У меня есть датафрейм, и он был импортирован из mysql dataframe_mysql.show()...
У меня есть скрипт, работающий в параграфе с интерпретатором Spark в Zeppelin. Он имеет импорт, и...
Я написал udf в pyspark, в котором используется цикл for с индексами (в основном это всего...
У меня установлена Zeppelin, и я использую интерпретатор Spark. Однако, если у меня есть...
Я борюсь с оптимизацией моих пользовательских функций, которые в настоящее время передаются как UDF
Какая версия Py4J идет с Spark 2.3.1? У меня есть py4j-0.10.7, но выдает ошибку из-за определенных...
Я собрал клиента Kafka, который извлекает данные из записи Kafka в Elasticsearch, программа...
Я относительно новичок в PySpark. Я пытался кэшировать данные 30 ГБ, потому что мне нужно выполнить...
Мне нужно обработать фрейм данных, содержащий логи (вход и выход) для приложения Данные приведены...
Когда я выполняю следующий простой код Spark: val trial = Try { require( requirement = false,...
Когда я пытаюсь установить зависимость пакета "spark-sftp" в моей конфигурации Spark, я получаю...
В драйвере я создал val для трансляции, который создается без проблем: val some_val = 100 val...
Я сталкиваюсь со следующей ошибкой: Я написал приложение, основанное на потоковой передаче Spark (...
У меня есть искровой фрейм данных, ради аргумента давайте возьмем его: val df = sc.parallelize(...
Я пытаюсь создать фрейм данных с одной строкой, значения которой равны нулю. val df = Seq(null...
В Spark 2.2 была включена опция Оптимизатора затрат. Документация говорит, что нам нужно...
У моего исходного CSV есть столбец времени, например Time Attempt 12.07.2018 00:00:00 50 12.07.2018...