Сегментирование набора данных с дискретными и непрерывными значениями данных в одну из двух групп без использования служб анализа? - PullRequest
1 голос
/ 21 июля 2010

Допустим, у меня есть таблица со следующей схемой (примечание: этот пример является гипотетическим, хотя реальный пример использования аналогичен).между LikesToParty и определенными конкретными конфигурациями других значений.Например, мужчины, чье второе имя Уэллс и кому от 15 до 30 лет и кто из Лос-Анджелеса, почти наверняка имеют отношение к LikeToParty.Я хотел бы предсказать ценность LikesToParty для пользователей, которые не ответили на опрос.

Как добывать эти данные с помощью C #, не покупая дорогостоящий пакет, такой как службы анализа?Существуют ли какие-либо бесплатные библиотеки для c #?

Я уже создал нейронную сеть, которая способна на большую часть того, что я описал в моем примере выше, но тренироваться очень медленно, и я не уверенесли это правильный путь.Может быть, есть лучший, более эффективный способ сегментирования данных?

Ответы [ 2 ]

2 голосов
/ 27 июля 2010

То, что вы описываете, является стандартной проблемой в машинном обучении, которая называется: классификация данных.

Методы классификации данных включают в себя: нейронные сети (как вы упоминаете), машины опорных векторов (см., Например, LIBSVM), деревья решений(как упоминалось в предыдущем ответе).Результаты этих типов методов, хотя и очень точные, могут быть трудно интерпретировать.Вы также можете посмотреть вероятностные графические модели, такие как Bayesian Networks, чтобы ответить на более глубокие вопросы, такие как: какова вероятность того, что мужчина из Южной Калифорнии, который любит вечеринки, находится в его середине двадцатых годов.

2 голосов
/ 23 июля 2010

Поскольку вы используете как дискретные, так и непрерывные данные, вы можете использовать дерево решений (C4.5, CART).Для них есть несколько реализованных библиотек;не остерегайтесь библиотек Java, так как вы можете использовать IKVM реализацию Java.Например, я использовал Weka API из C #.

...