Кто-нибудь знает, сколько предложений в оригинальном Penn Treebank? - PullRequest
1 голос
/ 27 июля 2010

Кажется, я нигде не могу найти это в документации

1 Ответ

3 голосов
/ 27 июля 2010

В Penn Treebank содержится 4,5 миллиона английских слов, которые используются для пометки POS, и около половины из них используется для анализа скелета.

Проверьте страницу 327 этого документа http://acl.ldc.upenn.edu/J/J93/J93-2004.pdf. Этонемного устаревший (2004), но я не могу вспомнить какие-либо новые слова, которые англоязычные люди ввели с тех пор.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...