как появилась WordNet - PullRequest
       7

как появилась WordNet

2 голосов
/ 13 октября 2011

Интересно, как извлекаются иерархические отношения в WordNet между словами.

Это делается вручную или с помощью компьютерных технологий.

Если они основаны на компьютерных технологиях, то чем они являются?

1 Ответ

5 голосов
/ 17 октября 2011

Из FAQ:

q.1.2 Где вы получаете определения для WordNet?(краткий ответ) Наши лексикографы пишут их.

Где вы получаете определения для WordNet?(длинный ответ) Из предисловия к WordNet: электронная лексическая база данных, с. xviii-xix:

Люди иногда спрашивают: «Где вы взяли свои слова?»Мы начали в 1985 году со слов в «Кучере» и «Стандартном корпусе современного отредактированного английского языка» Фрэнсиса (известный как «Коричневый корпус»), главным образом потому, что они обеспечивали частоты для различных частей речи.Мы хорошо попали в этот список, когда Генри Кучера предупредил нас, что, хотя он и Фрэнсис владеют «Коричневым корпусом», данные о синтаксической маркировке были проданы Хоутону Миффлину.Поэтому мы отказались от нашего плана использования их частотных показателей (в 1988 году Ричард Беквит разработал индекс полисемии, который мы используем вместо этого).Мы также включили все пары прилагательных, которые Чарльз Осгуд использовал для разработки семантического дифференциала.И поскольку синонимы были для нас критически важны, мы искали слова в различных тезаурусах: например, в небольшой «Основной книге синонимов и антонимов» Лоуренса Урданга (1978), в ревизии Урданга «Поиск синонимов» Рудале (1978) и РобертаЧетвертое издание Чепмена "Международный тезаурус Роже" (1977) - в таких работах одно слово быстро приводит к другим.В конце 1986 года мы получили список слов, составленный Фредом Чангом в Центре исследований и разработок военно-морских кадров, который мы сравнили с нашим собственным списком;мы были встревожены, обнаружив, что перекрытие составляет только 15%.

Таким образом, список Чанга стал вводным.А в 1993 году мы получили список из 39 143 слов, которые Ральф Гришман и его коллеги из Нью-Йоркского университета включили в общий лексикон COMLEX;на этот раз мы были встревожены тем, что WordNet содержал только 74% слов COMLEX.Но этот список тоже стал входным.Короче говоря, различные источники внесли свой вклад;мы не были хорошо дисциплинированы в построении нашего словарного запаса.Дело в том, что английский лексикон очень большой, и нам повезло, что наши спонсоры были терпеливы с нами, когда мы медленно ползли в гору.

...