Кластеризация по значениям косинусного сходства - PullRequest
2 голосов
/ 30 апреля 2011

Я извлек слова из набора URL-адресов и вычислил косинусное сходство между содержимым каждого URL-адреса. А также я нормализовал значения в диапазоне от 0 до 1 (используя Min-Max). Теперь мне нужно сгруппировать URL-адреса на основе сходства косинусов значения, чтобы найти похожие URL. Какой алгоритм кластеризации будет наиболее подходящим?. Пожалуйста, предложите мне метод динамической кластеризации, потому что он будет полезен, поскольку я могу увеличить количество URL-адресов по требованию, а также будет более естественным. Пожалуйста, исправьте меня, если вы чувствую, что я делаю успехи неправильно. Спасибо в ожидании.

1 Ответ

2 голосов
/ 01 мая 2011

K-означает, что кластеризация может использоваться для онлайн-обучения, вам просто нужно выбрать количество кластеров априори.Кроме того, я думаю, вы не должны нормализовать свои данные, потому что косинус уже предоставляет значения в диапазоне [0: 1].Ваша нормализация Min-Max может привести к потере информации.

...