У меня вопрос по поводу формата файла данных WordNet. В справочной странице wndb (5) написано частично:
Поле источника / цели различает лексические и семантические указатели. Это четырехбайтовое поле, содержащее два двузначных шестнадцатеричных числа. Первые две цифры указывают номер слова в текущем (исходном) наборе, последние две цифры указывают номер слова в целевом наборе. Значение 0000 означает, что pointer_symbol представляет семантическое отношение между текущим (исходным) синтаксисом и целевым набором синонимов, указанным в synset_offset.
Лексическое отношение между двумя словами в разных синтаксисах представлено ненулевыми значениями в исходных и целевых номерах слов. Первые и последние два байта этого поля указывают номера слов в исходном и целевом синтаксисах, соответственно, между которыми сохраняется отношение. Номера слов присваиваются полям слов в наборе слов слева направо, начиная с 1.
Я понимаю второй абзац, когда номера источника / цели отличны от нуля, но значение, когда источник / цель имеют значение "0000", мне все еще неясно.
Позвольте мне привести пример слова "аристократ". Запись index.noun
:
аристократ n 1 4 @ ~ #m + 1 0 09807754
и соответствующая запись в data.noun:
09807754 18 n 03 аристократ 0 blue_blood 0 патриций 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102 ~ 09840639 n 0000 ~ 09872782 n 0000 ~ 10083823 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 n 0000 ~ 10175090 0000 ~ 10472799 n 0000 ~ 10474064 n 0000 ~ 10505732 n 0000 ~ 10506642 n 0000 | член аристократии
первый «ptr» для которого:
@ 09623038 n 0000
и запись data.noun
начинается с:
09623038 18 n 01 лидер 0 058 @ 00007846 n 0000 ...
Что мне неясно, для какого слова (ей) это отношение. Имеет ли отношение гиперным ("@") только исходное слово ("аристократ") ко всем словам в целевом наборе синтаксиса (в данном случае есть только "лидер")?
Или отношение относится ко всем словам в исходном синтаксисе ("аристократ", "голубая кровь" и "патриций") ко всем словам в целевом синтаксисе?