У меня есть набор ~ 10K объектов, каждый из которых имеет приблизительно 150 различных свойств, около четверти которых многозначны и / или связаны с другими свойствами.
У меня есть набор из примерно 120 категорий, в которые я хотел бы отсортировать эти объекты, при этом каждая категория определяется как объект шаблона. Если экземпляр точно соответствует шаблону, этот объект явно будет в этой категории ... однако, только около 10% объектов на самом деле имеют шаблон, который является точным соответствием. В результате я хотел бы иметь возможность оценивать объекты по их сходству с категориями и сортировать их в соответствии с их наилучшим соответствием. Я также хотел бы определить кластеры объектов, которые очень похожи, указывая на потенциал для новой / уточненной категории.
Это похоже на работу для Weka, RapidMiner или другой системы машинного обучения / кластеризации / классификации. Тем не менее, мне трудно найти хорошие вводные материалы в этой области, и в результате я не могу сказать, сколько усилий потребуется, чтобы использовать эти инструменты в этом случае. Учитывая, что это может быть постоянной потребностью, я хотел бы использовать что-то, что позволит мне легко изменить метод анализа, веса и т. Д.
Мысли