Ассоциация майнинга с большим количеством небольших наборов данных - PullRequest
7 голосов
/ 04 марта 2012

У меня есть большое количество (100-150) небольших (около 1 кбайт) наборов данных.Мы будем называть их «хорошими» наборами данных.У меня также есть такое же количество «плохих» наборов данных.

Теперь я ищу программное обеспечение (или, возможно, алгоритм (ы)), чтобы найти правила для того, что представляет собой «хороший» набор данных по сравнению с «плохим» набором данных.

Важным моментом здесь является способность программного обеспечения работать с несколькими наборами данных, а не только с одним большим.

Очень важная помощь.
Пол.

Ответы [ 2 ]

2 голосов
/ 09 марта 2012

Это похоже на проблему классификации. Если у вас есть много наборов данных, помеченных как «хорошие» или «плохие», вы можете обучить классификатор, чтобы предсказать, является ли новый набор данных хорошим или плохим.

Алгоритмы, такие как дерево решений, k-ближайший сосед, SVM, нейронные сети, являются потенциальными инструментами, которые вы можете использовать.

Однако вам необходимо определить, какие атрибуты вы будете использовать для обучения классификатора.

1 голос
/ 04 марта 2012

Один из распространенных способов сделать это - использовать k-ближайший сосед .

Извлечение полей из вашего набора данных, например - если ваш набор данных представляет собой текст, распространенным способом извлечения полей является использование пакета слов .

Сохраните «тренировочный набор», и, когда прибудет новый набор данных [который не помечен], найдите k ближайших соседей к нему [согласно извлеченным полям]. Добавьте новый набор данных, как большинство k ближайших соседей [из учебного набора].

Другим распространенным методом является использование дерева решений . Проблема с деревьями решений - не делайте решение слишком конкретным. Существующий алгоритм, который можно использовать для создания хорошего [эвристического] дерева: ID3

...