Я сам играл с NLTK / wordnet с целью попытаться сопоставить некоторые тексты каким-либо автоматическим способом.Как отмечает ответ Теда Педерсена, довольно быстро становится ясно, что функции подобия в nltk.corpus.wordnet
дают ненулевое сходство только для довольно тесно связанных терминов с твердой родословной IS-A.
То, что я в итоге сделал, быловзяв словарный запас в моих текстах, а затем используя лемму-> synset-> леммы и леммы-> Similar_tos, чтобы вырастить свой собственный график связывания слов (graph_tool
фантастика для этого) и затем подсчитать минимальное количество прыжков необходимо, чтобы связать 2 слова, чтобы получить некоторую (не) меру сходства между ними (довольно интересно распечатать их; как, например, смотреть очень странную игру с ассоциацией слов).На самом деле это работало достаточно хорошо для моих целей, даже без всякой попытки учесть POS / смысл.