Мне нужно иметь возможность получить количество различных комбинаций в двух отдельных столбцах. В...
Я работаю с RDD, у которого есть несколько строк, начинающихся с #. Я хочу удалить все эти строки,...
Мне нужно иметь возможность получить наиболее распространенное значение столбца с помощью Pyspark....
Я пытаюсь создать СДР, который содержит массив кортежей с именами стран в качестве первого элемента...
Я попытался добавить столбец с номером строки, используя zipWithIndex, как показано ниже, в spark...
У меня есть СДР, groupResultMap, и напишите код ниже. if (groupResultMap.isEmpty) Map[String,...
У меня есть формат файла, показанный ниже, 0, Alpha,-3.9, 4, 2001-02-01 08:00:00, 5, 20 0, Beta, -3
Я пытаюсь суммировать все оценки на основе studentId. Я использовал lowerByKey. Но это бросает...
В настоящее время я занимаюсь исследованием выявления заболеваний сердца и хочу использовать искру...
У меня есть следующий формат файла: 0, Alpha,-3.9, 4, 2001-02-01, 5, 20 0, Beta,-3.8, 3, 2002-02-01...
Я пытаюсь использовать PySpark, чтобы найти среднюю разницу между смежным списком кортежей....
Я пытаюсь использовать только операции на основе rdd. У меня есть файл, похожий на этот: 0, Alpha...