Преимущества соблюдения протокола для модели данных - PullRequest
2 голосов
/ 16 июня 2009

Название вопроса, вероятно, неверно, потому что часть моего вопроса - попытаться получить более глубокое понимание проблемы.

Я ищу преимущества того, чтобы данные, импортируемые в базу данных (простой пример: таблица Excel в базу данных Access), передавались с использованием той же схемы и также соответствовали бизнес-требованиям.

У меня есть таблица Excel, не содержащая нормализованных данных, и база данных Access с нормализованными таблицами.

Таблица Excel принадлежит нескольким третьим сторонам, ни один из которых не придерживается того же формата, что и друг друга или база данных.

Некоторые источники также не предоставляют всех соответствующих данных.

Пример того, что может быть предоставлено

contact_key, date, contact_title, reject_name, reject_cost, count_of_unique_contact

count_of_unique_contact является производным от различных contact_title и не должно импортироваться. contact_key иногда не предоставляется. title иногда неизвестен и передается как "n / a", "name = ?? 1342", "# N / A" и т. д. довольно случайно. reject_name часто пишется с ошибкой. поля иногда даже не предоставляются, например дата и ключ контакта отсутствуют.

Я пытаюсь найти информацию, которая поможет объяснить проблемы с вышеперечисленным. Проблемы, связанные только с неверными данными или полями, которые затрудняют получение полезных данных в базе данных, например, невозможность сообщить о тенденции отклонения затрат в течение месяца, когда дата не указана. Нормализация файла Excel не доступна для меня.

Запрос значений и полей в файлах Excel на соответствие бизнес-требованиям и одинаковому формату для всех отправляющих их третьих сторон - это то, что я хочу сделать, но этот запрос игнорируется.

Я хочу объяснить клиенту, что ввод поддельных данных и проверка на наличие недействительных / существующих отклонений / контактов все время являются неправильными, и их выполнение приведет к сбою или в лучшем случае будет затруднено без постоянного обслуживания плохой системы. 1021 *

У кого-нибудь есть информация по этой проблеме?

Спасибо

1 Ответ

3 голосов
/ 16 июня 2009

Это распространенная проблема; в кругах обработки данных это называется "мусор входит, мусор выходит". По сути, вы сталкиваетесь с тем, что предоставленные данные имеют низкое качество; Вы правильно понимаете, что проблема в том, что будет трудно (если не невозможно) использовать эти данные для извлечения любой полезной информации.

В некоторой степени это проблема, которая должна быть исправлена ​​в источнике; Каким бы ни был ваш источник данных, они должны быть уверены, что качество данных должно улучшиться. В краткосрочной перспективе вы можете очистить ваши данные; этот термин относится к удалению или очистке неверных записей, чтобы сделать оставшиеся данные («хорошие» данные) импортируемыми в вашу базу данных. В зависимости от того, какой процент ваших данных является плохим, вы можете или не сможете выполнять полезные действия с очищенными данными после их импорта.

В какой-то момент, поскольку вы не получаете от руководства контроля качества данных, вам просто нужно показать им, что система работает не так, как задумано, поскольку качество данных плохое. На этом этапе им необходимо улучшить свои процессы, чтобы повысить качество данных, которые вы получаете на этом этапе. До тех пор, тем не менее, продолжайте настаивать на лучших данных; исследуйте процесс очистки данных и посмотрите, что вы можете сделать с оставшимися данными. Удачи!

...