Я хочу преобразовать org.apache.spark.sql.DataFrame
в org.apache.spark.rdd.RDD[(String, String)]
в Databricks. Может кто-нибудь помочь?
Справочная информация (и лучшее решение также приветствуется): у меня есть поток Kafka, который (после некоторых шагов) становится фреймом данных из 2 столбцов. Я хотел бы поместить это в кэш Redis, первый столбец в качестве ключа и второй столбец в качестве значения.
Более конкретно тип входа такой: lastContacts: org.apache.spark.sql.DataFrame = [serialNumber: string, lastModified: bigint]
. Я пытаюсь вставить в Redis следующее:
sc.toRedisKV(lastContacts)(redisConfig)
Сообщение об ошибке выглядит так:
notebook:20: error: type mismatch;
found : org.apache.spark.sql.DataFrame
(which expands to) org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]
required: org.apache.spark.rdd.RDD[(String, String)]
sc.toRedisKV(lastContacts)(redisConfig)
Я уже поиграл с некоторыми идеями (например, функция .rdd
), но ни одна не помогла.