У меня есть фрейм данных Spark в следующем формате. df = spark.createDataFrame([(1, 2, 3), (1, 4,...
У меня есть библиотека Scala, которая содержит некоторые служебные коды и UDF для API Scala Spark....
Я обрабатываю большой запрос с использованием искрового фрейма данных, и он занимает так много...
У меня есть потоковый источник Kafka с JSON, например, {"type":"abc"...
Мне нужно экспортировать данные из тем Hive в темы Kafka, основываясь на некоторых событиях в...
Я хочу подключить MongoDB к Apache Spark для Mac. Итак, я установил python 3.7, Apache Spark, mongo...
У меня очень большая структура, которая создается во время выполнения задания, которая имеет...
У меня есть примерно 100 ГБ данных, которые я пытаюсь обработать. Данные имеют вид: | timestamp |...
Я реализую метод buildScan API источника данных Spark v1. override def buildScan(requiredColumns:...
Я пытаюсь преобразовать ниже Teradata SQL в Spark SQL, но не могу. Может кто-нибудь предложить...
Я пытаюсь получить данные из темы kafka и помещаю их в папку hdfs. Я столкнулся со следующей...
Имея эту схему: root |-- Elems: array (nullable = true) | |-- element: struct (containsNull = true)...
Я не могу настроить Spark SQL так, чтобы я мог получить доступ к Hive Table в Spark Thrift Server...
У нас большой проект с несколькими наборами тестов, и в каждом наборе в среднем 3 теста. Для наших...
У меня проблемы с интеграцией искры с кафкой. Я использовал spark-streaming-kafka-0-8. Я компилирую...
В моей программе Scala у меня есть фрейм данных со схемой: root |-- FIRST_NAME: string (nullable =...
Я использую приложение Spark2 , которое использует следующую команду из com.mongodb.spark
Позвольте мне разбить эту проблему на меньший кусок. У меня есть DataFrame в PySpark, где у меня...
Я знаю, что это очень специфическая проблема, и не принято публиковать подобные вопросы в...
У меня есть приложение для потокового воспроизведения, мне нужно подписаться на несколько тем для...
Чтобы создать СДР в Spark Streaming, как мне оценить правильный интервал между партиями, чтобы мои...
У меня есть проект Spark в Scala, в котором я пытаюсь использовать зависимость google-cloud-storage
Как сохранить смещение сообщения в Kafka, если я использую KafkaUtils.createDirectStream для чтения...
Я использовал контрольные точки в потоковой передаче искры, и она создает отдельные папки для...
Я использую тему Кафки с startingOffsets, установленным на earliest. Срок хранения кластера...