Как измерить точность модели Doc2ve c? - PullRequest
0 голосов
/ 04 апреля 2020

У меня есть набор отзывов о различных отелях. Я пытаюсь найти похожие отели, используя отзывы о гостиницах. Итак, я использую алгоритм Doc2vec для достижения этой цели.

Можно ли измерить точность модели Doc2Vec с использованием Gensim вместо оценки результатов с помощью функции most_similar() Gensim?

1 Ответ

0 голосов
/ 04 апреля 2020

Поскольку Doc2Vec (он же называется алгоритмом «Вектор абзаца») - это неконтролируемый метод, здесь нет строго правильных или неправильных результатов - только обученные модели, которые лучше или хуже для какой-либо последующей задачи.

Как Вы, лично, в своем собственном уме, определяете, являются ли результаты ценными для вашего проекта?

Вы должны включить некоторые из этих суждений в повторяющийся процесс - например, одним из способов может быть составление вручную списка пар отелей, которые, по вашему экспертному суждению на уровне человека, "должны быть более похожи "друг на друга, чем другие, или, возможно, в" N лучших "результаты друг друга. Затем сравните модель Doc2Vec с этим идеалом по сравнению с другими методами (или несколькими альтернативно-параметризованными прогонами Doc2Vec).

Возможно, вы сможете bootstrap некоторые "должно быть более похожим" пары из существующих источников данных. Например, может быть, два отеля в одной цепочке «должны быть более похожими» друг на друга, чем какой-то случайный третий отель. (Таким образом, внешние данные их фирменного наименования будут определять вашу оценку, в идеале, если вы уверены, что фирменное наименование не просочилось в тексты документов, используемых для обучения модели.) Или, может быть, два отеля, которые оба географически и цена по отношению друг к другу "должна быть более похожа", чем какая-то случайная треть.

Но нет стандартного / автоматического c понятия "точности" для таких нечетких представлений в области всех возможных документов и цели проекта. Вам нужно разработать свои собственные пользовательские оценки, чтобы иметь возможность выбирать между алгоритмами или настраивать алгоритмы.

...