Примечание: Моя группировка может содержать до 5-10 тыс. Строк на группу для агрегации. Поэтому...
Я настроил свой кластер (1 ведущий / 9 ведомых). Моя проблема в том, что когда я подаю заявку...
У меня есть REST API в Scala Spray, который запускает задания Spark следующим образом:...
У меня есть датафрейм с 4 столбцами co1, col2, col3 и col4. Мне нужно: Группировка данных на основе...
В кадре данных есть столбец даты в строковом типе '2017-01-01' Преобразуется в DateType()...
Говорят, что установка spark.sql.thriftServer.incrementalCollect = true предотвращает остановку...
Есть ли способ эффективно разделить пространственное СДР в GeoSpark? например: разделы со многими...
TL; DR Какова наилучшая практика в отношении определения максимальной скорости входящих данных,...
То, что я пытаюсь сделать, - это «перепробовать» небольшой CSV-файл со столбцом значения веса в...
Я ищу способ получить новый столбец во фрейме данных в Scala, который вычисляет min / max значений...
Я хочу узнать количество достижимых вершин из данной вершины в ориентированном графе (см....
Использование структурированного потока Spark с решением Cloudera Я использую 3 исполнителя, но...
Я установил apache-spark и pyspark на свою машину (Ubuntu), а в Pycharm я также обновил переменные...
В настоящее время я работаю над набором данных StackOverflow из открытых наборов данных Google...
Я пытаюсь использовать функцию selectExpr split, но моя таблица выглядит примерно так:...
Я получаю приведенную ниже ошибку при запуске кода в Zeppelin, тогда как тот же код работает...
Я пробовал разъем hbase-spark. Для начала я пробую этот код. Мои зависимости pom:...
Я использую Kafka Producer и Spark Consumer. Я хочу передать некоторые данные в теме в виде массива...
В Intellij у меня есть эта конфигурация gradle: ext.sparkVersion = '1.6.1' ext
Может кто-нибудь объяснить мне это? Обратная сторона, однако, заключается в том, что для...
Привет, у меня есть набор данных выглядит как: мой вклад: +----------+----------------+ | id | flag...
Я использую потоковую передачу с помощью Spark на основе файлов и хочу удалить старые файлы с диска
Окружающая среда Скала Apache Spark: Spark 2.2.1 EMR на AWS: emr-5.12.1 Содержание У меня есть один...
Я выполняю работу по уменьшению карты с помощью Apache Spark, но на этапе отображения создается...
Я пытаюсь написать юнит-тест для моего задания потоковой передачи Spark. Моя работа с потоковым...