Я пишу приложение Spark, работающее на HDFS, выводом является RDD, который я должен сохранить в RocksDB. Но я не знаю, как заставить RocksDB работать с HDFS и Spark. Пожалуйста, дайте мне несколько инструкций о том, как настроить RocksDB на HDFS и интегрировать его с Spark
. Мы зашли на сайт https://github.com/facebook/rocksdb/tree/master/hdfs, но мы не можем найти hdfs.h и libhdfs, поэтому мы не можемзнать, как действовать
var sq = Seq[RDD[(String, Array[String])]]()
for (file <- files) {
val filename = file.getPath.toString()
val lines = sc.textFile(filename)
val doc_id = filename.split("/").last.dropRight(4)
val key_value = lines.flatMap(_.split(" ")).map(word => (word, Array((doc_id)))).reduceByKey((a,b) => a)
sq = sq :+ key_value
}
val output = sc.union(sq)
output.reduceByKey((a,b) => a ++ b) // this is the output RDD that we need to save to RocksDB