У меня есть БД, содержащая векторы tf-idf около 30 000 документов.
Я хотел бы вернуть для данного документа набор похожих документов - около 4 или около того.
Я думал о реализации K-Means (алгоритм кластеризации) для данных (с косинусным сходством), но я не знаю, является ли это лучшим выбором из-за многих неопределенностей: я не уверен, что положить в мой исходные кластеры, я не знаю, сколько кластеров создать, боюсь, кластеры будут слишком несбалансированными, я не уверен, что качество результатов будет хорошим и т. д.
Будем весьма благодарны за любые советы и помощь опытных пользователей.
Спасибо,
Кейти