Что означает каждое число в смысле WordNet? - PullRequest
1 голос
/ 11 июля 2019

Чувства WordNet кодируют некоторую информацию о смысле в идентификаторе.Основываясь на методе lemma_from_key здесь , мы можем видеть, что первые три числа: pos_number , lexname_index и lex_id .Какие еще два?Есть ли документация о том, что (более конкретно) каждый из них означает?

1 Ответ

2 голосов
/ 11 июля 2019
ss_type:lex_filenum:lex_id:head_word:head_id

лемма - это текст ASCII слова или словосочетания, найденный в Индексный файл базы данных WordNet, соответствующий поз. лемма в нижней падеж и словосочетания образуются путем объединения отдельных слов с символ подчеркивания (_).

ss_type - однозначное десятичное целое число, представляющее тип набора для смысла. См. Тип Synset ниже для списка чисел в соответствии с каждым типом синтаксиса.

lex_filenum - это двузначное десятичное целое число, представляющее имя файл лексикографа, содержащий синтаксис для смысла. Увидеть lexnames (5WN) для списка имен файлов лексикографа и их соответствующие цифры.

lex_id - это двузначное десятичное целое число, которое при добавлении к лемме однозначно определяет смысл в файле лексикографа. lex_id числа обычно начинаются с 00 и увеличиваются как дополнительные смыслы слова добавляются в тот же файл, хотя нет Требование, чтобы числа были последовательными или начинались с 00. Заметка что значение 00 является значением по умолчанию и, следовательно, отсутствует в файлы лексикографов. Только значения lex_id не по умолчанию должны быть явно назначается в файлах лексикографа. См. Wninput (5WN) для получения информации о формат файлов лексикографа.

head_word присутствует, только если смысл в прилагательном спутнике synset. Это лемма первого слова головы спутника synset.

head_id - это двузначное десятичное целое число, которое при добавлении к head_word, однозначно определяет смысл head_word в пределах файл лексикографа, как описано для lex_id. В этом есть ценность поле только при наличии head_word.

От: https://wordnet.princeton.edu/documentation/senseidx5wn

...