у нас есть новостной веб-сайт, где мы должны сопоставлять новости конкретному пользователю.
Мы должны использовать для сопоставления только текстовую информацию пользователя, как, например, интересы пользователя или краткое описание о них.
Я думал об угрозе как текстовой информации пользователя и текст новости как документ и найти сходство документа.
Таким образом, я надеюсь, что если в своем профиле я напишу такие предложения: Мне понравилась речь президента в Чике go в прошлом году , и в новостях говорится о: Трамп собирается выступить в Иллинойсе У меня может быть матч (пример чисто случайный).
Сначала я попытался встроить свои документы с помощью TF-IDF, а затем попытался kmeans, чтобы выяснить, есть ли что-то, что имеет смысл, но мне не очень нравятся результаты.
Я думаю, что проблема связана с плохим внедрением, которое дает мне TF-IDF.
Таким образом, я думал об использовании встраивания BERT для извлечения встраивания моих документов, а затем использовал косинусное сходство, чтобы проверить сходство двух документов (документа о профиле пользователя и новости).
Это подход, который может иметь смысл? Берт можно использовать для извлечения вложенных предложений, но есть способ встроить целый документ?
Что бы вы мне посоветовали?
Спасибо