Я использовал множество различных корпусов для обработки естественного языка, и я искал корпус, который был аннотирован Wordnet Word Senses.
Я понимаю, что, вероятно, не существует большого корпуса с этой информацией, так как корпус должен быть собран вручную, но должно быть что-то, из чего можно выйти.
Также, если корпус не существует, существует ли по крайней мере смысловая аннотированная база данных ngram (с каким процентным значением времени слова является каждое из его определений, или числовое число каждого определения wordnet в зависимости от того, насколько часто смысл слова есть)?