Поскольку Doc2Vec
(он же называется алгоритмом «Вектор абзаца») - это неконтролируемый метод, здесь нет строго правильных или неправильных результатов - только обученные модели, которые лучше или хуже для какой-либо последующей задачи.
Как Вы, лично, в своем собственном уме, определяете, являются ли результаты ценными для вашего проекта?
Вы должны включить некоторые из этих суждений в повторяющийся процесс - например, одним из способов может быть составление вручную списка пар отелей, которые, по вашему экспертному суждению на уровне человека, "должны быть более похожи "друг на друга, чем другие, или, возможно, в" N лучших "результаты друг друга. Затем сравните модель Doc2Vec
с этим идеалом по сравнению с другими методами (или несколькими альтернативно-параметризованными прогонами Doc2Vec
).
Возможно, вы сможете bootstrap некоторые "должно быть более похожим" пары из существующих источников данных. Например, может быть, два отеля в одной цепочке «должны быть более похожими» друг на друга, чем какой-то случайный третий отель. (Таким образом, внешние данные их фирменного наименования будут определять вашу оценку, в идеале, если вы уверены, что фирменное наименование не просочилось в тексты документов, используемых для обучения модели.) Или, может быть, два отеля, которые оба географически и цена по отношению друг к другу "должна быть более похожа", чем какая-то случайная треть.
Но нет стандартного / автоматического c понятия "точности" для таких нечетких представлений в области всех возможных документов и цели проекта. Вам нужно разработать свои собственные пользовательские оценки, чтобы иметь возможность выбирать между алгоритмами или настраивать алгоритмы.