Помощь с форматом файла данных WordNet - PullRequest
5 голосов
/ 10 ноября 2010

У меня вопрос по поводу формата файла данных WordNet. В справочной странице wndb (5) написано частично:

Поле источника / цели различает лексические и семантические указатели. Это четырехбайтовое поле, содержащее два двузначных шестнадцатеричных числа. Первые две цифры указывают номер слова в текущем (исходном) наборе, последние две цифры указывают номер слова в целевом наборе. Значение 0000 означает, что pointer_symbol представляет семантическое отношение между текущим (исходным) синтаксисом и целевым набором синонимов, указанным в synset_offset.

Лексическое отношение между двумя словами в разных синтаксисах представлено ненулевыми значениями в исходных и целевых номерах слов. Первые и последние два байта этого поля указывают номера слов в исходном и целевом синтаксисах, соответственно, между которыми сохраняется отношение. Номера слов присваиваются полям слов в наборе слов слева направо, начиная с 1.

Я понимаю второй абзац, когда номера источника / цели отличны от нуля, но значение, когда источник / цель имеют значение "0000", мне все еще неясно.

Позвольте мне привести пример слова "аристократ". Запись index.noun:

аристократ n 1 4 @ ~ #m + 1 0 09807754

и соответствующая запись в data.noun:

09807754 18 n 03 аристократ 0 blue_blood 0 патриций 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102 ~ 09840639 n 0000 ~ 09872782 n 0000 ~ 10083823 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 0000 ~ 10472799 n 0000 ~ 10474064 n 0000 ~ 10505732 n 0000 ~ 10506642 n 0000 | член аристократии

первый «ptr» для которого:

@ 09623038 n 0000

и запись data.noun начинается с:

09623038 18 n 01 лидер 0 058 @ 00007846 n 0000 ...

Что мне неясно, для какого слова (ей) это отношение. Имеет ли отношение гиперным ("@") только исходное слово ("аристократ") ко всем словам в целевом наборе синтаксиса (в данном случае есть только "лидер")?

Или отношение относится ко всем словам в исходном синтаксисе ("аристократ", "голубая кровь" и "патриций") ко всем словам в целевом синтаксисе?

1 Ответ

1 голос
/ 03 сентября 2013

Отношение действительно сохраняется для всех слов в исходном наборе символов ко всем словам в заданном наборе слов .

Это не означает, что лидер всегда является гиперным для аристократа, но это справедливо для рассудительного чувства аристократа (члена аристократии) и для продуманного чувства лидера (человека, который правит, направляет или вдохновляет других). , Некоторые отношения могут показаться странными, но WordNet не идеален и не может быть.

...