Смещение смещения Wordnet? Как сравнить слова - PullRequest
2 голосов
/ 15 апреля 2011

Я использую китайский Wordnet от Acadeic Sinica. Это перевод Wordnet 1.6. К сожалению, он не находится в свободном доступе и должен быть приобретен, и руководство в основном говорит, что обратитесь к руководству Wordnet. Я пытаюсь понять, как сравнить сходство между двумя словами. Я предполагаю, что это сделано с WordNetSynsetOffset, но я не мог найти что-либо на веб-сайте Wordnet или в документации о том, как использовать это для сравнения двух слов. Что касается реальных алгоритмов, я полагаю, это хорошее начало http://marimba.d.umn.edu/similarity/measures.html

<Record Conut="65">  
    <EnglishLemma>exercise</EnglishLemma>  
    <POS>Noun</POS>  
    <WordNetSynsetOffset Version="1.6">00469856</WordNetSynsetOffset>  
    <EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank>  
    <ChineseTransList>  
        <ChineseTrans>  
            <ChineseLemma>例題</ChineseLemma>  
            <ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank>  
        </ChineseTrans>  
    </ChineseTransList>  
</Record>  

Ответы [ 2 ]

4 голосов
/ 16 апреля 2011

Так что я думаю, что вы ищете (основываясь на комментариях) API WordNet.

Если китайский формат такой же, вы можете использовать WordNet API, который поставляется с вашей установкой.Это библиотека C, вы можете найти документацию здесь:

http://wordnet.princeton.edu/wordnet/documentation/

В основном - вот как это работает.Synset - это группа синонимичных терминов для идентифицированного набора, который уникально идентифицируется по идентификатору набора (00469856).Synsets связаны с другими synsets через различные формы семантических отношений.Большинство показателей сходства работают путем поиска одного Synset (по номеру, указанному вами ниже, API должен это поддерживать), а затем выясняют, насколько далеко находится другой Synset, используя различные метрики.

Синсет также содержит текстовое описание семантического значения этого набора - стандартное определение словаря, к которому мы привыкли.В некоторых случаях некоторые метрики сходства (например, алгоритм Леска) используют текстовое описание, чтобы сравнить, насколько «похожи» два синтаксиса друг на друга.

Существуют и другие API, которые позволяют вам искать и получать доступ к WordNet через его API на разных языках.

http://wordnet.princeton.edu/wordnet/related-projects/

Например, вот пример определения Synset из файлов словаря WordNet 3.0:

00020671 29 v 04 загипнотизировать 0 гипнотизировать 0 загипнотизировать 0 загипнотизировать 0 (... больше не учтено) ...

Уникальный идентификатор 00020671 идентифицирует этот набор.Здесь есть четыре синонима для гипноза.

0 голосов
/ 19 июня 2011

Слово может иметь много возможных значений (синсет). Если вы хотите сравнить сходство между двумя чувствами, сначала вам нужно устранить неоднозначность каждого слова. Как только вы узнаете, какие два чувства вы сравниваете, вы можете использовать то, что предложил @bwalenz.

...