Обработка отрицательных тестовых случаев в искровых применениях - Pyspark - PullRequest
1 голос
/ 29 апреля 2020

У меня есть приложение spark, которое выполняет работу ETL, читает из Kafka topi c (структурированная потоковая передача) в dataframe, который читает сообщение в topi c в виде строки. Использовал регулярное выражение, чтобы затем извлечь поля столбцов из строки, а затем применить некоторые агрегации к полям.

Это хорошо работает, если сообщение в Kafka topi c дается в определенном формате, но когда определенные поля отсутствующие магазины Как заставить программу отображать точную проблему, а не огромную ошибку?

Я также пытаюсь включить проверку входных данных для других модулей сценария, например, для проверки функции агрегирования, если присутствуют необходимые столбцы или нет, проверьте, имеют ли ячейки в кадре данных определенный c формат или нет, и т. д. c?

Что может быть лучшим способом для проверки ввода здесь? Я использую try and except? Или assertions до применения функции агрегирования?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...