Вопросы с тегом апаш-искра

0 голосов

0 ответов

Spark: Fair Scheduler

У меня настроен честный планировщик, как указано в документе: conf.set("spark.scheduler

MaatDeamon / 30 августа 2018

0 голосов

1 ответ

Прочитанный паркетный файл Java в вывод JSON

Чтение файла паркета работает, но получает формат с отступом вместо желаемого формата вывода JSON....

Justin Wilson / 29 августа 2018

0 голосов

2 ответов

Свести RDD [(String, Map [String, Int])] к RDD [String, String, Int]

Я пытаюсь преобразовать RDD [(String, Map [String, Int])] в RDD [String, String, Int] и в конечном...

Rasika / 29 августа 2018

0 голосов

0 ответов

Spark: планирование в приложении с помощью Scala / Java

В doc указывается, что можно запланировать несколько заданий в одном сеансе / контексте Spark....

MaatDeamon / 29 августа 2018

0 голосов

1 ответ

Дискретизируйте переменные, используя SparkR

Я хочу дискретизировать переменную, используя R, предпочтительно SparkR, чтобы желаемые результаты...

Geet / 29 августа 2018

0 голосов

0 ответов

Spark ML: Как получить коэффициенты моделей для каждой итерации в истории обучения?

Предположим, я использую Spark для обучения модели логистической регрессии и настроил ее на 100...

Gal / 29 августа 2018

0 голосов

1 ответ

Как загрузить предварительно обученную модель spark-nlp с диска

Со страницы spark-nlp GitGub Я скачал файл .zip, содержащий предварительно обученную NerCRFModel....

Gevorg / 29 августа 2018

0 голосов

3 ответов

Формат даты Scala

У меня есть data_date, который дает формат ггггммдд: beginDate = Some(LocalDate

Misha / 29 августа 2018

0 голосов

2 ответов

Применить логику для определенного столбца в кадре данных в искре

У меня есть датафрейм, и он был импортирован из mysql dataframe_mysql.show()...

Rajkiran / 29 августа 2018

0 голосов

1 ответ

Как разрешается импортированное имя в Scala? (Искра / Цеппелин)

У меня есть скрипт, работающий в параграфе с интерпретатором Spark в Zeppelin. Он имеет импорт, и...

jleeothon / 29 августа 2018

0 голосов

0 ответов

Pyspark: как сделать так, чтобы ваш udf не распространялся на разных работников

Я написал udf в pyspark, в котором используется цикл for с индексами (в основном это всего...

Charles Van Damme / 29 августа 2018

0 голосов

1 ответ

Можно ли увидеть некоторые сообщения об ошибках в абзацах Zeppelin?

У меня установлена Zeppelin, и я использую интерпретатор Spark. Однако, если у меня есть...

jleeothon / 29 августа 2018

0 голосов

0 ответов

Добавить пользовательские функции с оптимизацией (следовательно, не как UDF)

Я борюсь с оптимизацией моих пользовательских функций, которые в настоящее время передаются как UDF

aasthetic / 29 августа 2018

0 голосов

0 ответов

Несоответствие версии Py4J со Spark 2.3.1

Какая версия Py4J идет с Spark 2.3.1? У меня есть py4j-0.10.7, но выдает ошибку из-за определенных...

Aakash Basu / 29 августа 2018

0 голосов

0 ответов

KafkaUtils.createStream прекращает сбор данных через некоторое время

Я собрал клиента Kafka, который извлекает данные из записи Kafka в Elasticsearch, программа...

user3243478 / 29 августа 2018

0 голосов

1 ответ

Pyspark: java.lang.OutOfMemoryError: превышен предел издержек GC

Я относительно новичок в PySpark. Я пытался кэшировать данные 30 ГБ, потому что мне нужно выполнить...

lU5er / 29 августа 2018

0 голосов

1 ответ

как объединить строки в dataFrame на основе условия в pyspark

Мне нужно обработать фрейм данных, содержащий логи (вход и выход) для приложения Данные приведены...

Purmanund Sookun / 29 августа 2018

0 голосов

0 ответов

Что могло вызвать «com.esotericsoftware.kryo.KryoException: java.lang.NullPointerException»? При сериализации исключения Java

Когда я выполняю следующий простой код Spark: val trial = Try { require( requirement = false,...

tribbloid / 29 августа 2018

0 голосов

1 ответ

Как добавить любую новую библиотеку, такую как spark-sftp, в мой код Pyspark?

Когда я пытаюсь установить зависимость пакета "spark-sftp" в моей конфигурации Spark, я получаю...

Manideep / 29 августа 2018

0 голосов

1 ответ

Значение широковещания, доступное внутри foreachPartition

В драйвере я создал val для трансляции, который создается без проблем: val some_val = 100 val...

thebluephantom / 29 августа 2018

0 голосов

0 ответов

Ошибка потоковой передачи Spark во время выполнения задания в кластере (менеджер ресурсов пряжи)

Я сталкиваюсь со следующей ошибкой: Я написал приложение, основанное на потоковой передаче Spark (...

scalacode / 28 августа 2018

0 голосов

1 ответ

Искра парных различий внутри групп

У меня есть искровой фрейм данных, ради аргумента давайте возьмем его: val df = sc.parallelize(...

Paul / 28 августа 2018

0 голосов

4 ответов

Инициализация DataFrame с нулевыми значениями

Я пытаюсь создать фрейм данных с одной строкой, значения которой равны нулю. val df = Seq(null...

Achyuth / 28 августа 2018

0 голосов

2 ответов

spark.sql.cbo.enabled = true с таблицей Hive

В Spark 2.2 была включена опция Оптимизатора затрат. Документация говорит, что нам нужно...

Prashant / 28 августа 2018

0 голосов

3 ответов

Как сгруппировать значения DataFrame по часам?

У моего исходного CSV есть столбец времени, например Time Attempt 12.07.2018 00:00:00 50 12.07.2018...

getitout / 28 августа 2018