Вычисление семантической дистанции между словами - PullRequest
8 голосов
/ 30 декабря 2008

Кто-нибудь знает хороший способ вычислить "семантическое расстояние" между двумя словами?

Сразу же вспоминается алгоритм, который считает шаги между словами в тезаурусе.


ОК, похоже, на аналогичный вопрос уже был дан ответ: Существует ли алгоритм, который сообщает семантическое сходство двух фраз .

Ответы [ 3 ]

3 голосов
/ 30 декабря 2008

Идея тезауруса имеет некоторые достоинства. Одной из идей было бы создание графа на основе тезауруса с узлами, являющимися словами, и ребром, указывающим, что там они перечислены как синонимы в тезаурусе. Затем вы можете использовать алгоритм кратчайшего пути, чтобы определить расстояние между узлами в качестве меры их сходства.

Одна трудность здесь в том, что некоторые слова имеют разные значения в разных контекстах. Вашему алгоритму может потребоваться принять это во внимание и использовать направленные ссылки с весом исходящей ссылки в зависимости от используемой входящей ссылки (или игнорировать некоторые исходящие ссылки на основе входящей ссылки).

3 голосов
/ 24 февраля 2014

В текстовом майнинге есть важный принцип: «Вы должны знать слово по компания, которую он держит ". Это означает, что можно узнать значение слова на основе терминов, которые часто появляются рядом с ним.

Не вдаваясь в подробности, позвольте мне дать два простых варианта оценки семантической дистанции между терминами:

  1. Используйте ресурс, похожий на WordNet (большая лексическая база данных на английском языке). WordNet внешне напоминает тезаурус в том смысле, что он группирует слова по их значениям. Семантическое расстояние между словами можно оценить как количество вершин, соединяющих два слова.

  2. Используя большой корпус (например, Википедию), подсчитайте термины, которые появляются рядом со словами, которые вы анализируете. Создайте два вектора и вычислите расстояние (например, косинус).

Вы можете проверить эти материалы, чтобы получить представление о предмете:

  1. http://www.saifmohammad.com/WebDocs/Mohammad_Saif_Thesis-slides.pdf

  2. http://www.umiacs.umd.edu/~saif/WebDocs/distributionalmeasures.pdf

  3. http://www.umiacs.umd.edu/~saif/WebDocs/Measuring-Semantic-Distance.pdf

0 голосов
/ 30 декабря 2008

Возможный взлом: отправьте два слова в поиск Google и верните количество найденных страниц.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...