У одного из наших клиентов есть требование для построения / разработки правил качества данных с использованием hiveQL. Например, заменить значения NULL, изменить формат даты в YYYY-MM-DD
, стандартизировать значения столбцов суммы в формате США и ЕС и т. Д.
Постановка проблемы :
У меня естьнабор правил качества данных в одной таблице кустов (dq_rules), хочет выполнять каждое правило по одному и сохранять ошибки (такие как данные, как пустой столбец, неправильный столбец формата даты) в другой таблице кустов (dq_logging) для составления отчетов / ведения журналаЦель.
Пожалуйста, предложите мне решение, помня одну вещь: я хочу сделать это решение универсальным и выполнимым для любой таблицы / столбца куста (это означает, что оно должно быть параметризовано).
Ограничение: я не могу использовать существующие инструменты качества данных. Мне нужно завершить его, используя только улей (ограничение задается клиентом).
Схема для таблиц :
- dq_rules => Правило валидацииИдентификатор, категория правила, измерение DQ, описание правила Дата добавления, дата удаления
- dq_logging => Error_ID, имя_источника, Erroneous_Source_Fields, Source_File_Record, идентификатор правила проверки
Если у кого-либо есть решение, связанное снаписание сценария оболочки / Python, который также будет работать для меня. Мне просто нужно довести процесс до конца.