как найти идентификатор лексикографа в NT-файле WorNet без библиотеки - PullRequest
0 голосов
/ 25 сентября 2018

Я пытаюсь связать VerbNet с WordNet, используя файлы, которые они предоставляют для работы непосредственно с данными:

VerbNet => http://verbs.colorado.edu/verb-index/vn/verbnet-3.3.tar.gz

WordNet => http://wordnet -rdf.princeton.edu / static / wordnet.nt.gz

Глаголы в VerbNet имеют ссылку на WordNet через их sense_key:

например, живой% 2: 31: 00 ::

Это будет структура sense_key:

(лемма)% (part_of_speech_number) :( lexical_file_number) :(lexicographer_id) ::

При анализе n-троек файла nt я нашел все данные, кроме lexicographer_id:

lemma => live 
part_of_speech_number => 2 
lexical_file_number => 31
lexicographer_id => ??

1 Ответ

0 голосов
/ 28 ноября 2018

Анализ файла wordnet.nt, похоже, не дает вам этой информации.

Если база данных Wordnet 3.1 загружена из http://wordnetcode.princeton.edu/wn3.1.dict.tar.gz (ссылка в https://wordnet.princeton.edu/download/current-version),, там вы найдете файл «index.sense», который содержит такие записи:

bethel%1:06:00:: 02836245 1 0
bethink%2:31:00:: 00685046 2 1
bethink%2:39:00:: 02171205 1 3
bethlehem%1:15:00:: 08813084 2 0

Текущее описание этой структуры: https://wordnet.princeton.edu/documentation/senseidx5wn

Первый параметр в строке - это sense_key, который используется в VerbNet. Второй параметр - это synset_offset, который совпадает с идентификатором Synset вфайл wordnet.nt.

Из файла "index.sense" вы также можете получить смысловой номер для сопоставления со структурой "word.pos.sense_number", как в: "man.n.02"

...