Wordnet (аннотированный смысл слова) корпус - PullRequest
4 голосов
/ 11 января 2012

Я использовал множество различных корпусов для обработки естественного языка, и я искал корпус, который был аннотирован Wordnet Word Senses.

Я понимаю, что, вероятно, не существует большого корпуса с этой информацией, так как корпус должен быть собран вручную, но должно быть что-то, из чего можно выйти.

Также, если корпус не существует, существует ли по крайней мере смысловая аннотированная база данных ngram (с каким процентным значением времени слова является каждое из его определений, или числовое число каждого определения wordnet в зависимости от того, насколько часто смысл слова есть)?

Ответы [ 3 ]

8 голосов
/ 11 января 2012

Три видных корпуса, аннотированных для WordNet:

1 голос
/ 11 января 2012

Некоторые из данных SENSEVAL (теперь SEMEVAL ) аннотированы WordNet.

0 голосов
/ 05 февраля 2018

вы можете использовать senseval2, для java существует формат semcor и (jSemcor API), а также senseval3.эти два корпуса используются для устранения неоднозначности смысла слова.

...