У меня есть программа на гусеничном ходу, которая ежедневно хранит спортивные данные от 7 новостных агентств.он хранит около 1200 спортивных новостей каждый день.Я хочу разделить новости последних двух дней на подкатегории.Таким образом, каждые два дня у меня есть около 2400 новостей, которые относятся именно к этим дням, и многие из их тем говорят точно об одном и том же событии.например:
70 новости говорят о беге на 500 миль Брэда Кеселовски.
120 новости говорят о американском пловце Nyad, который начинает плавать.
28 newречь идет о матче между "Ман Юнайтед" и "Ман Сити".
.,.
Другими словами, я хочу сделать что-то вроде Новости Google .
Проблема в том, что эта ситуация не является проблемой классификации , потому что у меня нет специальных классов.Например, мои занятия не плавание, гольф, футбол и т. д. Мои занятия - это особые события в каждой области, которые произошли за эти два года.Поэтому я не могу использовать алгоритмы классификации, такие как Наивный Байес.
С другой стороны, моя проблема также не решается с помощью алгоритмов кластеризации .Потому что я не хочу заставлять их складывать в n кластеров.Возможно, в одной из новостей нет похожих новостей или, может быть, в одной пачке за два дня, есть 12 разных историй, но в другие два дня есть 30 разных вопросов.Поэтому я не могу использовать алгоритмы кластеризации, такие как «Одиночная ссылка (максимальное сходство)», «Полная ссылка (минимальное сходство)», «Максимальное взвешенное совпадение» или «Среднее по группе (среднее внутри сходство)».
У меня естьНекоторые идеи, чтобы сделать это, например, каждые две новости, которые имеют 10 общих слов, должны быть в одном классе.Но если мы не учтем некоторые параметры, такие как длина документов, влияние общих и редких слов и некоторые другие вещи, это не сработает.
Я прочитал эту статью ,но это был не мой ответ.
Есть какой-нибудь известный алгоритм для решения этой проблемы?