Поиск подходов для классификации объектов на основе их свойств - PullRequest
3 голосов
/ 05 июня 2009

У меня есть набор ~ 10K объектов, каждый из которых имеет приблизительно 150 различных свойств, около четверти которых многозначны и / или связаны с другими свойствами.

У меня есть набор из примерно 120 категорий, в которые я хотел бы отсортировать эти объекты, при этом каждая категория определяется как объект шаблона. Если экземпляр точно соответствует шаблону, этот объект явно будет в этой категории ... однако, только около 10% объектов на самом деле имеют шаблон, который является точным соответствием. В результате я хотел бы иметь возможность оценивать объекты по их сходству с категориями и сортировать их в соответствии с их наилучшим соответствием. Я также хотел бы определить кластеры объектов, которые очень похожи, указывая на потенциал для новой / уточненной категории.

Это похоже на работу для Weka, RapidMiner или другой системы машинного обучения / кластеризации / классификации. Тем не менее, мне трудно найти хорошие вводные материалы в этой области, и в результате я не могу сказать, сколько усилий потребуется, чтобы использовать эти инструменты в этом случае. Учитывая, что это может быть постоянной потребностью, я хотел бы использовать что-то, что позволит мне легко изменить метод анализа, веса и т. Д.

Мысли

Ответы [ 3 ]

1 голос
/ 07 июня 2009

Давайте поговорим ..
Если вы хотите, чтобы эти объекты были в порядке, то вы сможете вручную сойти с ума от них!

Я анализирую подобный набор данных, но всегда возвращаюсь в том же духе ... эти объекты в основном одинаковы.

Разделяющая их нечеткая логика - это Святой Грааль ... но Святой Грааль нечеткий ...: (
что вы можете сделать? ... дайте своему боссу какие-то нечеткие формулы? Это продлится некоторое время ..

Вы можете потратить целую жизнь, пытаясь найти закономерности, но это может заставить вас всех - почему не пытайтесь сместить перспективу к чему-то, что вы можете измерить? сконцентрируйтесь на результатах ..

0 голосов
/ 30 января 2012

То, что вы хотите разработать, - это система рассуждений, основанная на конкретных случаях, тип двигателя для разработки знаний.

Загляните в myCBR и Protege. Protege - это инженерная система онтологий из Стэнфорда, а myCBR - это система рассуждений, основанная на конкретных случаях, разработанная Томасом Р. Рот-Бергхофером.

MyCBR подключается к Protege, и вместе это сделает именно то, что вы хотите.

Важные биты:

  1. Храните ваши данные в формате CSV и убедитесь, что они безупречно чисты - если они не безупречны, то у Protege / myCBR будут с этим проблемы.
  2. Прочитайте инструкции для myCBR, прежде чем пытаться импортировать что-либо, потому что вы просите о разочаровании, если вы этого не сделаете.
  3. Экспорт данных более сложен, но теоретически вы можете экспортировать свои результаты в виде модуля Java. Protege имеет открытый исходный код, как и myCBR, поэтому я считаю, что лицензионный сбор не взимается.
  4. Вы можете установить веса для своих категорий, которые могут быть вам полезны.

Protege:

http://protege.stanford.edu/

myCBR:

http://mycbr -project.net /

0 голосов
/ 06 сентября 2009

RapidMiner поставляется с интегрированным онлайн-учебником. Просто запустите RapidMiner, затем перейдите в «Справка», а затем «Руководство по RapidMiner». Yon также может загрузить бесплатное учебное пособие по RapidMiner в формате PDF с веб-страницы Rapid-I. Кроме того, на веб-странице Rapid-I есть бесплатное небольшое вводное видео о RapidMiner, а также множество учебных курсов по RapidMiner, если вы посмотрите раздел «Услуги» на веб-странице Rapid-I.

...