Получить POS вероятности из инструмента командной строки Wordnet - PullRequest
1 голос
/ 17 июня 2011

Я пишу несколько экспериментов с доступом ruby ​​к wordnet с помощью инструмента командной строки wn, потому что я разочаровался в том, чтобы заставить работать гем wordnet.

Я хочу иметь возможность искать частоты чувств, в конечном итогечтобы можно было рассчитать вероятность того, что данное слово является существительным / прилагательным / глаголом / наречием.

Я пробовал документацию, но это не всегда так явно.

Возможно ли это безиспользуя только инструмент wn?и я пишу в мыслях Wordnet включает эту информацию?

1 Ответ

4 голосов
/ 17 июня 2011

Насколько я могу судить, он не включает частоты как таковые, хотя в возвращаемых результатах синтаксисы упорядочены от самых до наименее частых.

Вы можете получить фактические частоты несколькими способами. Возможно, наиболее надежным является использование корпуса с тегами POS, такого как Penn TreeBank, а затем просто вычислить значения самостоятельно. К сожалению, получить бесплатную копию этого сложно, если вы не в университете. Другой вариант - создать свой собственный корпус (возможно, из блогов, книг Project Gutenberg, Википедии и т. Д.), Запустить над ним POS-тегер, а затем вычислить частоты из этого. Очевидно, что этот метод будет искажен, но это намного проще, чем пометить корпус вручную.

...