Ааа ... но "Я действительно люблю собак" и "Я действительно ненавижу собак" абсолютно одинаковы;), оба обсуждают свои чувства к собакам.Похоже, что вам не хватает шага:
- Запустите ваш алгоритм и получите общие тематические группы (то есть "чувства к собакам").
- Запустите ваш алгоритм снова,но на этот раз для каждой ранее «обнаруженной» группы, и пусть ваш алгоритм далее классифицирует их по подгруппам (т.е. «я ненавижу собак» / «я люблю собак»).
Если ваш алгоритм настраивается на основеего опыт (т. е. некоторое обучение). Затем убедитесь, что вы запускаете отдельные экземпляры алгоритма для первой классификации и новый экземпляр алгоритма для каждой подклассификации ... если вы этого не сделаете, вы можете закончитьнапример, вы обнаружите несколько групп, и каждый раз, когда вы запускаете свой алгоритм в тех же группах, результаты почти совпадают и / или ничего не меняется вообще.
Обновление
Apache Mahout предоставляет множество полезных алгоритмов и примеров кластеризации, классификации, генетического программирования, леса решений, разработки рекомендаций.Вот некоторые примеры классификации текста из mahout:
Я не уверен, какой из них лучше всего подходит для вашей проблемы, но, возможно, если вы посмотрите на них, вы поймете, какой из них наиболее подходит для вашего конкретного приложения.