Question

У меня есть большое количество (100-150) небольших (около 1 кбайт) наборов данных.Мы будем называть их «хорошими» наборами данных.У меня также есть такое же количество «плохих» наборов данных.

Теперь я ищу программное обеспечение (или, возможно, алгоритм (ы)), чтобы найти правила для того, что представляет собой «хороший» набор данных по сравнению с «плохим» набором данных.

Важным моментом здесь является способность программного обеспечения работать с несколькими наборами данных, а не только с одним большим.

Очень важная помощь.
Пол.

Phil · Answer 1 · 09 марта 2012

Это похоже на проблему классификации. Если у вас есть много наборов данных, помеченных как «хорошие» или «плохие», вы можете обучить классификатор, чтобы предсказать, является ли новый набор данных хорошим или плохим.

Алгоритмы, такие как дерево решений, k-ближайший сосед, SVM, нейронные сети, являются потенциальными инструментами, которые вы можете использовать.

Однако вам необходимо определить, какие атрибуты вы будете использовать для обучения классификатора.

amit · Answer 2 · 04 марта 2012

Один из распространенных способов сделать это - использовать k-ближайший сосед .

Извлечение полей из вашего набора данных, например - если ваш набор данных представляет собой текст, распространенным способом извлечения полей является использование пакета слов .

Сохраните «тренировочный набор», и, когда прибудет новый набор данных [который не помечен], найдите k ближайших соседей к нему [согласно извлеченным полям]. Добавьте новый набор данных, как большинство k ближайших соседей [из учебного набора].

Другим распространенным методом является использование дерева решений . Проблема с деревьями решений - не делайте решение слишком конкретным. Существующий алгоритм, который можно использовать для создания хорошего [эвристического] дерева: ID3

Ассоциация майнинга с большим количеством небольших наборов данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ассоциация майнинга с большим количеством небольших наборов данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы