Вопросы с тегом апаш-искра

0 голосов

0 ответов

Как прочитать значение аккумуляторов в рабочем задании в спарк?

Согласно документации аккумуляторов в искре: Обратите внимание, что задачи на рабочих узлах не...

KayV / 20 сентября 2018

0 голосов

1 ответ

Почему аккумулятор в искре предназначен только для записи для рабочего задания?

Согласно документации аккумуляторов: Обратите внимание, что задачи на рабочих узлах не могут...

KayV / 20 сентября 2018

0 голосов

0 ответов

как запустить несколько приложений в автономном кластере Spark без ограничения ресурсов

Я пытаюсь запустить несколько приложений на отдельном кластере Spark.но кажется, что отдельный...

Arjun gangineni / 20 сентября 2018

0 голосов

0 ответов

Pyspark: среднее (целевое) кодирование для категориальных функций spark dataFrame

Я хочу закодировать категориальные характеристики кадра данных искры (df), используя средний...

Saeid SOHEILY KHAH / 20 сентября 2018

0 голосов

1 ответ

Pyspark RDD операции!(Python3, Spark2)

У меня есть файл 'input.txt', содержащий следующее: [10,21,90,34,40,98,21,44,59,21,90,34,29,19, 21...

BossBaby / 20 сентября 2018

0 голосов

2 ответов

Apache Spark кеширует RDD на уровне узла или на уровне кластера?

Я знаю, что метод Apache Spark persist сохраняет RDD в памяти и что, если не хватает места в памяти...

YACINE GACI / 20 сентября 2018

0 голосов

0 ответов

Spark Streaming с автоматическим перезапуском

необходимо запустить искровое потоковое задание в автозапуске, уже использованы параметры,...

Asmi / 20 сентября 2018

0 голосов

2 ответов

Проблемы настройки Spark

сильный текст Почему этот этап выполняется с 1 потоком в конце?Из-за этого требуется много времени,...

Suresh G / 20 сентября 2018

0 голосов

1 ответ

Как написать 128 МБ паркетный файл с помощью Spark

Чтение CSV-файлов, а затем запись в паркет. Можно ли сохранить 128 МБ паркетных блоков? Мой текущий...

Rolintocour / 20 сентября 2018

0 голосов

1 ответ

Хранилище данных с огромным количеством операций чтения и записи и производительности интеграции с Spark Structured Streaming

У меня есть случай, когда в NoSQL Datastore хранится около 150 миллионов записей.Каждый день может...

Swarup / 20 сентября 2018

0 голосов

0 ответов

Как преобразовать scala.collection.immutable.HashMap в java.util.Map в набор данных spark 2.2 в Java

У меня есть набор данных, скажем, DS. DS.printSchema() root |-- BRAND: string (nullable = true) |--...

Sekhar / 20 сентября 2018

0 голосов

2 ответов

Убийство искры Apache из веб-интерфейса не убивает его подпроцесс Python

код pyspark, написанный для вызова другого задания python с использованием subprocess.Popen...

Siddeshwar / 20 сентября 2018

0 голосов

0 ответов

Почему я получил два разных значения при вызове df.count () и df.rdd.count () с помощью этого сценария sql

Используйте hiveContext.sql, чтобы выполнить скрипт ниже: with nt as ( select label, score from (...

Yuchen Gu / 20 сентября 2018

0 голосов

0 ответов

Невозможно создать Dataframe в apache spark с пустым полем Key из JSON со следующим синтаксисом JSON

Я не могу создать Apache Spark Dataframe со структурированным пустым ключом JSON, как показано ниже...

abdulrahman Mohammed / 20 сентября 2018

0 голосов

2 ответов

Как запустить TPOT с помощью искрового кластера dask TO (автономная модель или модель Mesos)

Я пытаюсь использовать ваш проект под названием dask-spark, предложенный Мэтью Роклином. При...

Doudoulin / 20 сентября 2018

0 голосов

0 ответов

Ошибка при записи данных в Kafka с использованием структурированной потоковой передачи

Существует очень простой код для чтения данных из Kafka и записи значения в dataframe в другой...

Jed.Y / 20 сентября 2018

0 голосов

0 ответов

Использование ScalaTest для Spark с мастер-пряжей и режимом развертывания кластера

В настоящее время я использую spark-submit --master yarn --deploy-mode cluster для запуска своих...

Aether / 20 сентября 2018

0 голосов

1 ответ

Как вычесть значения из всех ключей в Pair Rdd?

У меня есть Pair Rdd[(Int, Array[Double])], и я хочу, чтобы каждый ключ вычитал все другие массивы...

Tmpoul / 20 сентября 2018

0 голосов

3 ответов

Spark SQL регистрозависимый фильтр по шаблону для столбца

Как использовать искровой SQL-фильтр в качестве чувствительного к регистру фильтра на основе...

xyz_scala / 20 сентября 2018

0 голосов

0 ответов

Модульные тесты в Spark Streaming

Я пытаюсь написать модульные тесты в Spark Streaming с DStreams.Вот мой тестовый пример. import org

Srinivas / 19 сентября 2018

0 голосов

1 ответ

Генерация месячных временных меток между двумя датами в фрейме данных pyspark

У меня есть некоторый DataFrame со столбцом "date", и я пытаюсь сгенерировать новый...

LDropl / 19 сентября 2018

0 голосов

1 ответ

Отличительная и суммированная агрегация в Spark одной командой

Я немного тренируюсь в Spark и задаюсь вопросом об оптимизации одной из моих задач.Цель проста:...

kacperdominik / 19 сентября 2018

0 голосов

0 ответов

Примените функцию к PySpark DataFrame и создайте новый DataFrame

Я пытаюсь использовать следующий код: addresses = spark.sql('''SELECT street_address...

J. Sell / 19 сентября 2018

0 голосов

0 ответов

Карта искр с классом корпуса и фильтром

У меня есть текстовый файл с форматом ниже 2018-01-19 12:00 Info 2018-01-20 12:00 Info 2018-01-21...

Sujith / 19 сентября 2018

0 голосов

1 ответ

Spark Agg, чтобы собрать один список для нескольких столбцов

Вот мой текущий код: pipe_exec_df_final_grouped = pipe_exec_df_final

test acc / 19 сентября 2018