У меня есть следующий СДР, представляющий данные о продажах: val rddSales:RDD[((String, String),...
Кажется, одно из моих предположений было неверным в отношении порядка в СДР ( относящегося )....
Я создал СДР ключа / значений следующим образом: RDD[(String, Int)]: rdd.map(row => row.split(1)...
Я не использую PySpark. Я использую Scala для запуска моего приложения Spark. Я выполняю скрипт...
У меня есть искровой Dataframe с двумя столбцами «label» и «sparse Vector», полученные после...
Есть какие-нибудь короли искры? Вариант использования: у меня есть кадр данных в 1 миллион строк, я...
У меня есть текстовый файл, содержащий десятки гигабайт данных, которые мне нужно загрузить из HDFS...
Я смотрю на разделы СДР >>> rdd = sc.parallelize(range(10), 5) >>> rdd.collect()...
У меня есть список искровых фреймов данных, и я должен выполнить с ними некоторую операцию Я хочу...
Я пытался выполнить пример преобразования строки JSON в фрейм данных в искре, следуя официальной...
Я хочу объединить 2 записи на основе ключа, но не хочу пропустить и непарные записи. Например, у...
Новый пользователь Spark здесь. Я извлекаю функции из многих изображений .tif, хранящихся на AWS S3...
У меня есть столбец структуры в моем фрейме данных, и я хочу собрать его как список Scala. case...
У меня есть датафрейм, df.show () примерно так: +-----------+-------------------+ |id| name|...
Как мы можем реализовать приведенную ниже логику в искре? Если значение столбца равно нулю, оно...
Я делаю простое назначение в Apache Spark, используя Python.Допустим, у меня есть СДР:...
Как я могу преобразовать СДР tuple2 (Ключ, Значение) с дубликатами Ключей в Карту [K, Список [V]]?...
У меня есть файл CSV, который хранится в формате hdf в следующем формате: Business Line,Requisition...
У меня проблема при преобразовании DataFrame в RDD.Кадр данных изначально создается из файла CSV:...
Я пытаюсь получить большинство просматриваемых фильмов из набора рейтинговых данных и сопоставить...
Я изучаю Spark и его параллелизм, связанный с распределением разделов RDD.У меня машина с 4...
Я использую Apache Spark 2.11 и использую Scala.Есть ли способ соединить два RDD с помощью функции...
Я хотел бы напечатать rdd-данные, используя scala, например: res1.foreach{case(userid...
Я хотел бы напечатать данные структуры scala, вот так res0.take(2).foreach{case (id,tags) =>...
данные rdd - это ключ, формат значения, а значение - это данные структуры. Как я могу распечатать...