Каковы методы и практики измерения качества данных? - PullRequest
2 голосов
/ 14 мая 2009

Если у меня есть большой набор данных, описывающих физические «вещи», как я могу измерить, насколько хорошо эти данные соответствуют «вещам», которые они должны представлять?

Примером может быть, если у меня есть ящик с 12 виджетами, и я знаю, что каждый виджет весит 1 фунт, должна быть некоторая «проверка» качества данных, чтобы убедиться, что кейс весит 13 фунтов, возможно.

Другой пример: если у меня есть лампа и изображение, представляющее эту лампу, она должна выглядеть как лампа. Возможно, размеры изображения должны иметь такое же соотношение размеров лампы.

За исключением изображений, мои данные - это 99% текста (включая высоту, ширину, цвет ...).

Я изучал ИИ в школе, но мало что сделал за его пределами.

Являются ли стандартные методы искусственного интеллекта подходящими? Если да, то как мне сопоставить проблему с алгоритмом? Некоторые языки легче в этом, чем другие? У них есть лучшие библиотеки?

спасибо.

Ответы [ 3 ]

1 голос
/ 15 мая 2009

Ваш вопрос несколько открытый, но звучит так, будто вы хотите, это то, что известно как « классификатор » в области машинного обучения .

Как правило, классификатор берет часть ввода и «классифицирует» ее, то есть: определяет категорию для объекта. Многие классификаторы обеспечивают вероятность с помощью этого определения, а некоторые могут даже возвращать несколько категорий с вероятностями для каждой.

Некоторые примеры классификаторов: байесовские сети , нейронные сети, списки решений и деревья решений . Байесовские сети часто используются для классификации спама. Письма классифицируются как «спам» или «не спам» с вероятностью.

По вашему вопросу вы бы хотели классифицировать ваши объекты как «высококачественные» или «не высокого качества».

Первое, что вам нужно, это куча тренировочных данных. То есть набор объектов, где вы уже знаете правильную классификацию. Одним из способов получить это может быть получение группы объектов и их классификация вручную. Если для классификации одного человека слишком много объектов, вы можете передать его Mechanical Turk .

Как только вы получите данные о тренировках, вы создадите свой классификатор. Вам необходимо выяснить, какие атрибуты важны для вашей классификации. Вам, вероятно, нужно будет поэкспериментировать, чтобы увидеть, что работает хорошо. После этого ваш классификатор будет учиться на основе ваших тренировочных данных.

Один из подходов, который часто используется для тестирования, состоит в том, чтобы разделить ваши тренировочные данные на два набора. Обучите свой классификатор, используя одно из подмножеств, а затем посмотрите, насколько хорошо он классифицирует другое (обычно меньшее) подмножество.

1 голос
/ 15 мая 2009

ИИ - это один путь, естественный интеллект - это другой.

Ваша задача идеально подходит для механического турка Амазонки. Разделите ваше пространство данных на чрезвычайно маленькие проверяемые атомы и назначьте их в виде HIT на Mechanical Turk. Имейте некоторое совпадение, чтобы дать вам ощущение последовательности ответов HIT.

Был магазин с набором чертежей компонентов САПР, которые нужно было сгруппировать по сходству. Они разбили это и установили это на Механическом Турке к очень удовлетворительным результатам. Я мог бы часами гуглить и больше не найти эту ссылку.

См. здесь для соответствующего сообщения на форуме.

0 голосов
/ 15 мая 2009

Это сложный ответ. Например, что определяет лампа? Я мог бы погуглить изображения некоторых сумасшедших ламп. Или даже посмотрите определение лампы (http://dictionary.reference.com/dic?q=lamp).) Нет физических требований к тому, как должна выглядеть лампа. В этом суть проблемы ИИ.

Что касается данных, вы можете настроить модульное тестирование в проекте, чтобы убедиться, что 12 widget () весит менее 13 фунтов в widetBox (). Несмотря на это, вам нужно иметь данные под рукой, чтобы иметь возможность проверять подобные вещи.

Я надеюсь, что смог ответить на ваш вопрос несколько. Это немного смело, и мои ответы широки, но, надеюсь, это, по крайней мере, направит вас в правильном направлении.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...