Я использую KafkaUtils.createDirectStream Kafka API для приема сообщений, а затем обрабатываю...
Я использую HBaseContext.BulkGet API в потоковой передаче. Ниже мой код. def enrichMessage(rdd:...
Я пытаюсь отправить простое приложение (написанное на Scala) с помощью spark-submit с YARN (мастер...
Мне нужно добиться чего-то похожего на: Проверка, являются ли значения в List частью String в искре
Я пытаюсь построить BlockMatrix, +---+---+---+---+ |7.0|6.0|3.0|0.0| |3.0|2.0|5.0|1.0| |9.0|4.0|0
Я использую: ЭЙ-5.20.0 Hadoop 2.8.5 Spark 2.4.0 Одна из моих работ Spark записывает данные паркета...
Я разработал этот простой LogTransformer, расширив UnaryTransformer для применения преобразования...
Я пытаюсь записать данные из Spark (используя Databricks) в базу данных Mongo внутри Azure Cosmos...
Я пытаюсь записать обработанные данные в папку HDFS. Я получаю запись данных в папку HDFS после...
Я выполняю сценарий, используя пряжу spark-shell --master, как показано ниже У меня есть текстовый...
Spark 2.4 представил новые полезные функции Spark SQL, включающие массивы, но я был немного...
Я работаю над двумя CSV-файлами для объединения данных и создания JSON Payload с использованием...
У меня есть поток изменений Mongo (приложение pymongo), который постоянно получает изменения в...
Я использую следующий потребительский код в Spark для чтения из темы Кафки: val df = spark .read
У меня есть 2 больших набора данных. Первый набор данных содержит около 130 миллионов записей....
Я работаю с правильным синтаксисом и структурой для следующей проблемы. У меня есть два набора...
У меня есть эта ошибка в моем коде (wordCount от Kafka), скомпилированном с SBT [error]...
У меня есть Spark Cluster (Автономный кластер, всего 4 рабочих - каждый работник имеет 16 ядер....
Я часто использую dataframe.show () для вывода табличных данных на консоль в удобочитаемой форме....
У меня есть задание Kafka Streaming Consumer, которое сохраняет данные в таблице Hive. Проблема в...
Я обучил несколько RNN+biLSTM моделей, которые я хочу развернуть в конвейере, состоящем из pyspark...
Я пытался настроить некоторые модульные тесты, чтобы проверить логику в пользовательской реализации...
У меня большой стол (около 300 ГБ) и баран около (50 ГБ) и 8 процессоров. Я хочу переместить свою...
У меня есть приложение для потокового воспроизведения, которое запускается в конце дня и использует...
У меня есть этот код: import org.apache.spark.sql.SparkSession object TopicIngester { def...