У меня есть приложение spark, которое выполняет работу ETL, читает из Kafka topi c (структурированная потоковая передача) в dataframe, который читает сообщение в topi c в виде строки. Использовал регулярное выражение, чтобы затем извлечь поля столбцов из строки, а затем применить некоторые агрегации к полям.
Это хорошо работает, если сообщение в Kafka topi c дается в определенном формате, но когда определенные поля отсутствующие магазины Как заставить программу отображать точную проблему, а не огромную ошибку?
Я также пытаюсь включить проверку входных данных для других модулей сценария, например, для проверки функции агрегирования, если присутствуют необходимые столбцы или нет, проверьте, имеют ли ячейки в кадре данных определенный c формат или нет, и т. д. c?
Что может быть лучшим способом для проверки ввода здесь? Я использую try and except
? Или assertions
до применения функции агрегирования?