Как мы проводим тестирование Spark Dataframe с помощью JUnit? - PullRequest
0 голосов
/ 18 октября 2019

Мы пытаемся создать набор интеграционных тестов с использованием JUnit. Наш конвейер (построенный в Spark с использованием Scala) дает нам DataFrames в качестве вывода, мы планируем сравнить их с ExpectedOutput, переданным с использованием некоторого ввода config / JSON. У нас есть несколько внутренних инструментов, которые интегрированы с JUnit для покрытия и CI / CD, поэтому нам нужен способ интегрировать JUnit с нашими сравнениями данных, но мы не можем найти ни одного такого примера.

Кто-нибудь видел такую ​​реализациюна что мы можем сослаться?

1 Ответ

0 голосов
/ 18 октября 2019

Вы можете запустить локальный контекст искры в тестах. Убедитесь, что вы создали только один контекст для всего теста. В каждом тесте .collect () набор данных (небольшие выборки) и сравнение его с вашим JSON.

Вот пример псевдокода настройки ctx с @ BeforeClass.

    @BeforeClass
    public void init() {
        SparkConf conf = new SparkConf();
        conf.setMaster("local");
        conf.setAppName("junit");
        ctx = new JavaSparkContext(conf);     
    }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...