Очистка данных: пользователь ввел инструменты данных базы данных - PullRequest
2 голосов
/ 15 августа 2011

У нас есть база данных с некоторыми избыточными, неверными данными.Например, у некоторых названий статей есть разница в верхнем регистре в нижнем регистре, у других - проблема с ударением, у других - пропущенная буква и так далее.Идея состоит в том, чтобы объединить записи базы данных, которые на самом деле одинаковы.

Есть ли хорошие инструменты, которые позволяют легко очистить базу данных, в идеале это не будет сделано автоматически, но потребует подтверждения пользователя

1 Ответ

1 голос
/ 15 августа 2011

Существует довольно много инструментов для очистки данных. Также есть много компаний, которые предлагают очистку данных как услугу.

Я провел очистку данных для нескольких крупных корпораций, и это не простая задача, или не такая простая, как кажется, и дублирование данных также чревато всевозможными проблемами, которые не становятся очевидными, пока вы не начнете выполнять упражнения.

ИМХО, если ваши унаследованные данные находятся в относительно плохом состоянии, и вы не обладаете внутренними знаниями в этой (довольно специализированной) области, я хотел бы рассмотреть вопрос о привлечении третьей стороны, которая сделает это за вас, поскольку они могут выполнить это быстрее и с меньшими затратами, чем начинать с нуля.

Если вы хотите приобрести собственные навыки, чтобы сделать это, то я провел несколько быстрых поисков в Google и увидел множество предлагаемых пакетов программного обеспечения. Возможно, вы захотите взглянуть на их сильные стороны относительно друг друга. конкретные типы данных, которые вы хотите очистить, поскольку некоторые из них будут лучше в определенных областях, чем другие.

Надеюсь, это поможет, Олли.

...