Как написать тесты spark-scala для запуска / подключения к кластеру hadoop? - PullRequest
0 голосов
/ 06 июля 2018

Я создаю тесты для процесса spark / scala для написания блок-тестов (например, Junits). У меня есть процесс ETL, который подключается к таблицам Hbase, присутствующим в кластере hadoop, и обрабатывает их, а также записывает данные в другие таблицы hbase. В этом процессе задача состоит в том, чтобы программа подключалась к кластеру, а не работала из локальной системы. Не могли бы вы предложить решение или подход для обработки этого сценария, чтобы можно было выполнить тестирование по соединению с hbase, который находится в кластере?

import com.mymmodels.myDocument

import scala.io.Source
import org.scalatest.{BeforeAndAfterAll, BeforeAndAfterEach, FunSuite}

class myServiceTest extends FunSuite{

  test("Test sample method") {
    //assert(true === myxmlservice.IsDataAvailableInMyDataJson)
    val rawXml = Source.fromURL(getClass.getResource("/my_raw.xml")).mkString
    val imyDocument:myDocument = mymxmlparser.parsemyGoldenXml(rawDataXml)
    assert("1" === myDocument.entity_id)
    assert("N" === myDocument.isDeleted)
  }
}

1 Ответ

0 голосов
/ 06 июля 2018

Вы можете использовать подход dockerized, то есть использовать образы docker для каждого компонента в вашем конвейере и организовать их с помощью docker-compose для тестовых прогонов. Для большинства продуктов, связанных с Hadoop, имеются образы докеров.

...