Question

У меня есть набор ~ 10K объектов, каждый из которых имеет приблизительно 150 различных свойств, около четверти которых многозначны и / или связаны с другими свойствами.

У меня есть набор из примерно 120 категорий, в которые я хотел бы отсортировать эти объекты, при этом каждая категория определяется как объект шаблона. Если экземпляр точно соответствует шаблону, этот объект явно будет в этой категории ... однако, только около 10% объектов на самом деле имеют шаблон, который является точным соответствием. В результате я хотел бы иметь возможность оценивать объекты по их сходству с категориями и сортировать их в соответствии с их наилучшим соответствием. Я также хотел бы определить кластеры объектов, которые очень похожи, указывая на потенциал для новой / уточненной категории.

Это похоже на работу для Weka, RapidMiner или другой системы машинного обучения / кластеризации / классификации. Тем не менее, мне трудно найти хорошие вводные материалы в этой области, и в результате я не могу сказать, сколько усилий потребуется, чтобы использовать эти инструменты в этом случае. Учитывая, что это может быть постоянной потребностью, я хотел бы использовать что-то, что позволит мне легко изменить метод анализа, веса и т. Д.

Мысли

divinci · Answer 1 · 07 июня 2009

Давайте поговорим ..
Если вы хотите, чтобы эти объекты были в порядке, то вы сможете вручную сойти с ума от них!

Я анализирую подобный набор данных, но всегда возвращаюсь в том же духе ... эти объекты в основном одинаковы.

Разделяющая их нечеткая логика - это Святой Грааль ... но Святой Грааль нечеткий ...: (
что вы можете сделать? ... дайте своему боссу какие-то нечеткие формулы? Это продлится некоторое время ..

Вы можете потратить целую жизнь, пытаясь найти закономерности, но это может заставить вас всех - почему не пытайтесь сместить перспективу к чему-то, что вы можете измерить? сконцентрируйтесь на результатах ..

William M-B · Answer 2 · 30 января 2012

То, что вы хотите разработать, - это система рассуждений, основанная на конкретных случаях, тип двигателя для разработки знаний.

Загляните в myCBR и Protege. Protege - это инженерная система онтологий из Стэнфорда, а myCBR - это система рассуждений, основанная на конкретных случаях, разработанная Томасом Р. Рот-Бергхофером.

MyCBR подключается к Protege, и вместе это сделает именно то, что вы хотите.

Важные биты:

Храните ваши данные в формате CSV и убедитесь, что они безупречно чисты - если они не безупречны, то у Protege / myCBR будут с этим проблемы.
Прочитайте инструкции для myCBR, прежде чем пытаться импортировать что-либо, потому что вы просите о разочаровании, если вы этого не сделаете.
Экспорт данных более сложен, но теоретически вы можете экспортировать свои результаты в виде модуля Java. Protege имеет открытый исходный код, как и myCBR, поэтому я считаю, что лицензионный сбор не взимается.
Вы можете установить веса для своих категорий, которые могут быть вам полезны.

Protege:

http://protege.stanford.edu/

myCBR:

http://mycbr -project.net /

Miguel A. Friginal · Answer 3 · 06 сентября 2009

RapidMiner поставляется с интегрированным онлайн-учебником. Просто запустите RapidMiner, затем перейдите в «Справка», а затем «Руководство по RapidMiner». Yon также может загрузить бесплатное учебное пособие по RapidMiner в формате PDF с веб-страницы Rapid-I. Кроме того, на веб-странице Rapid-I есть бесплатное небольшое вводное видео о RapidMiner, а также множество учебных курсов по RapidMiner, если вы посмотрите раздел «Услуги» на веб-странице Rapid-I.

Поиск подходов для классификации объектов на основе их свойств

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поиск подходов для классификации объектов на основе их свойств

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы