У меня есть таблица типа tenant_id,start_date,end_date,use_fancy_transformation 1,20180101,20180201...
Мой файл flume.log становился огромным, поэтому я по глупости удалил его.Его абсолютный путь был...
Понятия не имею, как отфильтровать положительные или отрицательные значения в столбце с помощью...
У меня есть набор данных, который содержит двухуровневую строку JSON. Вот пример того, как выглядит...
Я использую эту команду для запуска своей работы на спарке. spark-submit --class=ueba.Main --jars...
Я бы хотел лучше понять обмен информацией между YARN и Spark.Например: Что происходит с момента...
Я использую Stream Streaming (2.1) для отправки некоторых данных в kafka (некоторые версии 0.10,...
Я вставляю данные в таблицу улья с итерациями в искре. Например: скажем, 10 000 элементов, сначала...
Я новичок в Spark. Я не могу узнать, как обрабатывать журналы в режиме Spark Cluster. Я добавил...
Я хочу создать rdd из python-kafka в моем потоковом приложении. Мой код: from pyspark import...
Я отправляю искровое задание в режиме кластера, используя следующую команду и передавая stage.cde
В данный момент у меня работает кластер Spark 2.3.1 с 3 узлами, и я также использую сервер zeppelin...
Я пытаюсь написать тестовый пример кода приложения spark scala. Поэтому я планирую использовать...
Я ищу документацию о том, как parquet.enable.dictionary будет использоваться в Spark (последняя...
Я пытаюсь сохранить модель ML на сетевой диск на spark standalone mode. Но искра пытается найти...
Мы работаем над приложением Spark Streaming, в котором оно получает данные из kafka. У нас есть...
Я реализую SparkHealthListener, расширяя класс SparkListener. @Component class...
У меня есть фрейм данных со следующей схемой: root |-- e: array (nullable = true) | |-- element:...
Из Spid Scala 2.2 apidocs: def computeCost(dataset: Dataset[_]): Double Computes the sum of squared...
UDF - мне нужно пройти через фрейм данных, чтобы выполнить определенную операцию. Я понимаю, что не...
У меня есть фрейм данных c1 c2 user1 5 user2 3 user3 3 user4 1 Я хочу разделить фреймы данных на 3...
У меня есть потоковое задание Spark, которое объединяет строки, используя идентификатор и временное...
Для работы Spark среднего размера (пока 7 часов) мы видим, что executors выполняет работу, но...
Я пытаюсь выполнить несколько операций fs.rename между каталогами после записи в первый кадр...
Может кто-нибудь объяснить мне, почему RDDFunctions.sliding должен возвращать пустой RDD, если...