Систематическое исправление известных ошибок в наборе данных - PullRequest
0 голосов
/ 19 августа 2011

Моя существенная проблема в том, что у меня есть доступ только для чтения к большому набору данных. Этот набор данных имеет около 300 000 записей. Некоторые из этих записей содержат ошибки в диапазоне от опечаток до кусков отсутствующих данных. К несчастью, невозможно исправить в источнике, а также невозможно создать исправлен локальный клон. Поскольку эти ошибки обнаружены, они относительно легки исправить и обычно может быть достигнуто в несколько строк кода. Эта проблема Я борюсь с это разумная и расширяемая система, чтобы эти ошибки могли быть задокументировано и исправлено.

Наличие метода с кучей if(primaryKey == 245664) {fix here} работает, но это ужасное решение.

Я пишу на Java и посмотрел на механизм ServiceLoader, но это чувствует немного тяжеловес для моих целей. Любые предложения будут высоко оценены.

1 Ответ

0 голосов
/ 19 августа 2011

Я знаю вашу боль.

Возможно, это не совсем то, что вы хотите, но я советую вам взглянуть на Google Refine.Я предпочитаю обучающие программы скринкастам, но они довольно хороши:

http://code.google.com/p/google-refine/wiki/Screencasts

Это настоящий супер-инструмент для обработки данных, который может сэкономить вам много времени на программирование.Я не уверен, поможет ли это автоматизировать процесс исправления или очистки данных, но я думаю, что они подумали о чем-то подобном.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...