используя word2vec для представления сходства предложений - PullRequest
0 голосов
/ 30 марта 2019

Я знаю, что многие люди, должно быть, спрашивали это с некоторым изменением, и я не могу прочитайте их все и сравните с моим требованием. Вот почему я спрашиваю об этом здесь, и я прошу прощения за неудобства.

Я читал во многих постах, что для использования word2vec в предложениях можно добавить вектор каждого слова в предложении, а затем найти разницу.

Причина сложения заключается в том, что предложения, которые одинаковы, но последовательность слов различна, сложение сделает их идентичными.

Но для предложений: "Вчера я не пойду туда" и "Я не пойду туда вчера", случай использования здесь упадет.

Что мне было интересно, есть ли какой-нибудь алгоритм, который заставит word2vec понимать использование прилагательных, а затем работать на нграммах вместо униграмм. Например, найти важные слова из текста с помощью алгоритма textrank, а затем создать в нем вложения слов, а затем добавить их, чтобы выяснить сходство.

Будет ли такой подход иметь смысл или это просто выстрел в воздух? Есть ли какой-нибудь лучший подход, над которым можно предложить мне поработать?

Большое спасибо за ваши предложения.

...