В Penn Treebank содержится 4,5 миллиона английских слов, которые используются для пометки POS, и около половины из них используется для анализа скелета.
Проверьте страницу 327 этого документа http://acl.ldc.upenn.edu/J/J93/J93-2004.pdf. Этонемного устаревший (2004), но я не могу вспомнить какие-либо новые слова, которые англоязычные люди ввели с тех пор.