Как автоматизировать процесс выполнения правил качества данных? - PullRequest
1 голос
/ 10 октября 2019

У одного из наших клиентов есть требование для построения / разработки правил качества данных с использованием hiveQL. Например, заменить значения NULL, изменить формат даты в YYYY-MM-DD, стандартизировать значения столбцов суммы в формате США и ЕС и т. Д.

Постановка проблемы :

У меня естьнабор правил качества данных в одной таблице кустов (dq_rules), хочет выполнять каждое правило по одному и сохранять ошибки (такие как данные, как пустой столбец, неправильный столбец формата даты) в другой таблице кустов (dq_logging) для составления отчетов / ведения журналаЦель.

Пожалуйста, предложите мне решение, помня одну вещь: я хочу сделать это решение универсальным и выполнимым для любой таблицы / столбца куста (это означает, что оно должно быть параметризовано).

Ограничение: я не могу использовать существующие инструменты качества данных. Мне нужно завершить его, используя только улей (ограничение задается клиентом).

Схема для таблиц :

  1. dq_rules => Правило валидацииИдентификатор, категория правила, измерение DQ, описание правила Дата добавления, дата удаления
  2. dq_logging => Error_ID, имя_источника, Erroneous_Source_Fields, Source_File_Record, идентификатор правила проверки

Если у кого-либо есть решение, связанное снаписание сценария оболочки / Python, который также будет работать для меня. Мне просто нужно довести процесс до конца.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...