Какое программное обеспечение доступно для проверки качества данных - PullRequest
0 голосов
/ 22 июня 2011

Я ищу, чтобы определить некоторые возможные программные опции, которые позволят настраивать пользовательские правила для работы с массивными файлами данных (.csv). Например, правильная прописная буква (позволяющая штатам оставаться заглавными и уникальными фамилиями), идентифицирующая количество словконкретные слова в поле и некоторые другие пользовательские правила.Любое руководство будет оценено.

Ответы [ 2 ]

0 голосов
/ 22 июня 2011

Вы можете использовать Talend Open Studio для этой задачи. Это открытый ETL-инструмент для манипулирования данными и интеграции. Вы можете, например, ImportCSV >> DATABASE >> выполнить преобразования >> ExportCSV. Возможности бесконечны.

Вы можете найти его здесь: http://www.talend.com/products-data-integration/talend-open-studio.php

Звучит так, как будто вы хотите создать профиль данных. Для этого вы можете использовать Talend Open Profiler, недавно они добавили поддержку плоских файлов, таких как ваш .csv. Он прост в использовании, и вы должны начать работу через 30 минут.

Скачать можно здесь: http://www.talend.com/products-data-quality/talend-open-profiler.php

Вы можете найти здесь несколько уроков: http://www.talendforge.org/tutorials/menu.php

В руководствах выберите вкладку «Качество данных» и прокрутите вниз до «Talend Open Profiler»

Это мой первый шаг в оценке качества данных для нового набора данных.

0 голосов
/ 22 июня 2011

Быстрый Google "утилиты очистки данных" обнаружил это:

http://data -scrubbing.qarchive.org /

Они выглядят очень близко кчто вы ищете.

Это будет зависеть от сложности правил.Гораздо сложнее, чем простые вещи, и вы, вероятно, будете впереди, просто зашифровав что-то (или закодировав).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...