Я пытаюсь оценить косинусное сходство между каждым документом i
в корпусе A
и всеми документами в корпусе B
.
Есть идеи, как я могу сделать это эффективно? Я работаю с довольно большими наборами данных.
По сути, я хочу получить документ (ы) в корпусе B
, который является (являются) наиболее похожим для каждого документа в корпусе A
.