У меня есть простое приложение Spark в scala. Сейчас я хочу, чтобы мое приложение spark просто создавало sparkSession и считывало файл Json в DataFrame.
object SparkAppExample {
def main(args: Array[String]): Unit = {
val sparkSession = SparkSession.builder()
.appName("Spark Scala Example")
.getOrCreate()
val records: DataFrame = sparkSession.read.json("records.jsonl")
}
}
Как написать для этого юнит-тесты? Я могу создать фрейм данных для тестирования, используя
val dummy: DataFrame = sparkSession.createDataFrame(Seq(
("BABY", "videos", "0.5"),
("APPLIANCES AND STORAGE", "audios", "0.6")
))
Теперь я действительно хочу вызвать SparkAppExample.main(Array.empty[String])
в моем модульном тесте, а затем смоделировать sparkSession.read.json
вызов, чтобы вернуть фиктивный фрейм данных, который я создал выше.