алгоритм качества данных в хранилище данных - PullRequest
1 голос
/ 28 ноября 2011

Я ищу хороший алгоритм / метод для проверки качества данных в хранилище данных. Поэтому я хочу иметь некоторый алгоритм, который «знает» возможную структуру значений и затем проверяет, являются ли значения членом этой структуры, а затем решает, являются ли они правильными / не правильными.

Я думал об определении регулярного выражения и проверке каждого значения, подходит оно или нет.

Это хороший способ? Есть ли хорошие альтернативы? (Какие-нибудь исследовательские работы?)

Ответы [ 2 ]

3 голосов
/ 18 декабря 2011

Я бы порекомендовал использовать специальный инструмент качества данных, такой как DataCleaner (http://datacleaner.eobjects.org),, над которым я довольно много работал.

Вам нужен инструмент, который не только проверяет строгие правилакак ограничения, но также и тот, который даст вам профиль ваших данных и позволит вам легко исследовать и выявлять несоответствия самостоятельно. Попробуйте, например, «Шаблон поиска», который расскажет вам шаблоны ваших строковых значений - что-тоэто часто выявляет выбросы и ошибочные значения. Вы также можете использовать инструмент для фактической очистки данных путем преобразования значений, извлечения из них информации или обогащения с помощью сторонних сервисов. Удачи в улучшении качества ваших данных!

3 голосов
/ 29 ноября 2011

Я видел, как некоторые авторы предлагают добавить специальное измерение, называемое измерение качества данных , для дальнейшего описания каждой фактабельной записи.

Типичными значениями в измерении качества данных могут быть «Нормальное значение», «Значение за пределами допустимого», «Неверное значение», «Проверенное значение», «Непроверенное значение» и «Неопределенное значение».

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...