У меня есть фрейм данных spark, в котором у меня есть несколько столбцов, таких как tin, year,...
Как создать схему, DataFrame и загрузить 2-3 строки образцов данных, которые вписываются в эту...
У меня есть две переменные ниже: var rddPair1 : Array[(String, String)] = Array((0000003,杉山______...
У меня есть DataFrame с идентификаторами документов doc_id, идентификаторами строк для набора строк...
Я новичок в Apache Spark и использую версию 2.4.3, предварительно созданную для Hadoop 2.7.Мне...
Предположим, я выполняю простой скрипт pyspark data_rdd.map(some_fun).toDF(), где data_rdd содержит...
Я пытаюсь понять, как работает сериализация в случае самостоятельно сконструированного класса case...
Я пытаюсь сравнить временные метки на карте, но Spark, похоже, использует другой часовой пояс или...
Сценарий : укажите dataset в виде текста в указанном месте автономного кластера.Прочитайте эти...
В двух разных программах, которые используют разные типы записи в коллекцию MongoDB, в эту...
Я наткнулся на приведенный ниже пример: lines = sc.textFile("some_file.txt") //line_1...
У меня есть список массивов, для которых мне нужно найти элемент с самой высокой частотой для...
У меня есть два файла ниже: file1 0000003 杉山______ 26 F 0000005 崎村______ 50 F 0000007 梶川______ 42 F...
Я работаю над проблемой MapReduce, в которой я хочу отфильтровать каждый вывод раздела Map. Я хочу...
Я должен посчитать повторяющиеся значения в массиве val arr = Array(1,2,2,3,4,5,5,5) Например, как...
у меня есть val: val key: RDD[String]= Seq("0000005","0000001"...
У меня проблема с созданием гистограммы в Scala.Я использовал histogram на СДР. Например: val eg =...
Я недавно начал работать с API Spark Dataset и пробую несколько примеров. Ниже приведен один такой...
Я должен использовать foldByKey в Списке, чтобы найти максимальную цену каждого предмета. Я...
У меня есть СДР со следующим количеством элементов в каждом разделе (общее количество разделов val...
Ниже мой код для rdd: temp_var = temp_var.map(lambda x: (x[0], ((x[1][2]*x[1][3])+ x[1][0],x[1]...
Я новичок в использовании Python, так что простите, если вопрос звучит просто. Если у меня есть...
Версия Spark: Scala 2.12.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_211) В следующем коде...
У меня есть СДР следующим образом: [(((1, 2), 1.0), (2, 3)), (((1, 2), 1.0), (3, 4)), (((1, 2), 3
Я пытаюсь получить доступ к каждой строке определенного "числа" столбца Int, чтобы проследить...