Question

Я пытаюсь оценить косинусное сходство между каждым документом i в корпусе A и всеми документами в корпусе B.

Есть идеи, как я могу сделать это эффективно? Я работаю с довольно большими наборами данных.

По сути, я хочу получить документ (ы) в корпусе B, который является (являются) наиболее похожим для каждого документа в корпусе A.

gnodab · Answer 1 · 09 апреля 2020

Взгляните на Модель векторного пространства . Эта статья ссылается на представление документов в виде tf-idf statisti c или термин частота-обратная частота документа . Это может помочь встроить документ так, чтобы сходство знаков могло быть эффективно вычислено.

Я бы построил (не) матрицу подобия, где каждый столбец соответствует расстояниям от документа в нулевой строке. Каждая строка может быть вычислена независимо. Так что, если бы вы могли распараллелить вычисления.

arpitrathi · Answer 2 · 10 апреля 2020

Рассчитать вложение документа для каждого документа в корпусе A & B, используя преобразователи предложений .
Рассчитать косинусное сходство между каждым встраиванием документа в A с аналогичным в B.
Сортировка массивов точечного произведения по косинусному сходству.
Извлечение первых N документов в B для каждого документа в A.

Как вычислить косинусное сходство между двумя разными КОРПУСАМИ?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как вычислить косинусное сходство между двумя разными КОРПУСАМИ?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы