Я создаю систему рекомендаций, и моя главная цель - рекомендовать место для публикации конференции, основываясь на заголовке и резюме статьи пользователя. Вот как система должна работать
- Прежде всего, набор данных dblp будет использоваться для обучения нашей рекомендательной системы. Набор данных Dblp содержит название статьи, реферат, количество цитирований и название места проведения
- Я использовал LDA и TFIDF (в основном для сравнения) для обучения набора данных DBLP
- После обучения пользователь должен ввести название своей статьи и реферат
- Затем входные данные сопоставляются с данными обучения, и каждому объекту присваивается оценка релевантности (для этого используется косинусное сходство)
- Наконец, все места с наибольшим количеством очков вместе с показателем сходства показывается пользователю
Теперь мой вопрос
как оценивать этот тип техники, так как он не имеет какой-либо предварительной информации о фактическом балле. если я использую точность и вспомню, что будет ложным положительным и ложным отрицательным?
до сих пор я использовал порог сходства, т. е. если место встречи превышает 0,4 балла, это будет актуально, иначе это будет неактуально? это правильный метод оценки?