Я пытаюсь использовать структурированную потоковую передачу в искре, так как она хорошо подходит...
У меня есть ввод spark-dataframe с именем df как, +---------------+----+----+----+...
Я читаю CSV-файл с помощью следующего кода: - from pyspark.sql import SparkSession spark =...
Оставляя в стороне аспекты соединения с базой данных, которые обсуждаются с mapPartitions для RDD,...
Я хотел бы знать, как отправить строку JSON в виде сообщения в тему kafka, используя функцию scala...
Как я могу указать спарку собирать статистику по столбцам только для определенного раздела? WARN...
Я работаю с фреймом данных со следующей схемой: root |-- Id: integer (nullable = true) |--...
У меня есть особый вариант использования, когда у меня есть несколько строк для одного и того же...
Мне нужно подумать, как записать мои данные в Hadoop. Я использую Spark, я получил сообщение из...
Я создал СДР ключа / значений следующим образом: RDD[(String, Int)]: rdd.map(row => row.split(1)...
У меня есть работа с потоковым воспроизведением, и у меня возник вопрос о преобразовании типов....
У меня есть работа с потоковым воспроизведением, коды там внизу: val filterActions = userActions
Я хочу преобразовать несколько столбцов с одинаковыми категориальными значениями, используя...
Я читаю строку длиной более 100 Кбайт и разделяю столбцы по ширине. У меня есть столбцы размером...
У меня есть СДР (key, (val1,val2)). Для этого rdd я хотел бы применить функцию reduceByKey, и мое...
Я использовал SparkContext.addFile("hdfs://host:54310/spark/fileName.txt") и добавил файл...
Я использую версию spark-2.0.2-bin-hadoop2.6 в режиме кластера StandAlone, и у меня есть один...
Поскольку мои вычислительные задачи требуют быстрого дискового ввода-вывода, меня интересует...
У меня есть Breeze DenseMatrix, я нахожу mean на строку и mean квадратов на строку и помещаю их в...
Я пытался собрать несколько полей в наборе данных и преобразовать их в формат массива json. Я...
Я хотел бы реплицировать все строки в моем DataFrame на основе значения данного столбца в каждой...
Эта проблема похожа на: Что происходит - NoSuchMethodError: com.datastax.driver.core.ResultSet
У меня есть следующий запрос sql spark SELECT count(*), channel FROM channelusage a WHERE a
Я пытаюсь вычислить де Колмогорова Тест Смирнова в SCALA с распределением [6,6], предполагая, что в...
У меня есть датафрейм: +---+---+----+ | id|key|name| +---+---+----+ | 10| 1| a| | 11| 1| b| | 12|...