Самый быстрый способ пройти через матрицу корреляции, чтобы найти ближайшего соседа - PullRequest
0 голосов
/ 14 января 2019

Я вычислил вложения (векторные представления) нескольких тем (усредняя вложения предложений текста, который к ним относится), а затем вычислил матрицу корреляции между каждой из них.

Illustration of Correlation Matrix of Topics (actual matrix is quite large

Теперь, учитывая новую тему, скажем, «Программное обеспечение», я хочу найти, к какой из тем она наиболее близка. Я могу вычислить косинусное сходство между встраиванием новой темы в каждую из существующих тем, но это займет много времени, если количество существующих тем будет большим. Могу ли я использовать информацию о близости в матрице корреляции, чтобы быстро проходить / совершать пропуски и добираться до ближайшего существующего соседа, учитывая любую новую тему?

...