Косинусное косинусное сходство рекомендуемой мощности двигателя - PullRequest
0 голосов
/ 04 мая 2019

Я разработал вспомогательный инструмент, в котором конечный пользователь должен видеть компании, похожие на ту, которую он просматривает в настоящее время. Я сделал это через tf-idf описаний компаний и затем вычислил косинусное сходство со всеми компаниями в нашей базе данных.

Пока результаты хороши, но я хочу иметь возможность распознавать, когда выходной сигнал плохой (чтобы иметь возможность использовать альтернативный движок, когда это так). Я понял, что в этом случае алгоритм выводит компании из совершенно разных секторов, которые не имеют ничего общего. Таким образом, я подумал, что мог бы рассчитать кросс-сходство между 10 полученными результатами (таким образом, сходства 10х10) и взять среднее из этого. Моя интуиция заключалась в том, что, когда результат хороший, все компании принадлежат к одному и тому же сектору и довольно похожи, в то время как при плохом выходе компании относятся к случайным секторам и совсем не похожи. Таким образом, среднее сходство между различными результатами должно быть довольно хорошим показателем качества вывода, по крайней мере, я думал!

К сожалению, среднее сходство между выводимыми результатами вообще не коррелирует с качеством вывода! Я также пытался проанализировать, может ли стандартное отклонение значений косинуса первых 10 результатов влиять на качество, но, к сожалению, это также не так.

Кто-нибудь знает метрику, по которой я мог бы предсказать, хорош ли вывод механизма рекомендаций? Я бы хотел использовать альтернативный двигатель в таком случае.

...