Просто хотел бы отметить, что в отношении WordNet существуют «стоп-слова», которые не включены. Некоторые люди онлайн сделали списки стоп-слов, но я не уверен, насколько они полны.
Некоторые стоп-слова: «то», «тот», «я», «до» от «чей».
Большой список здесь:
http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html
Список слов смотрите в этом проекте sourceforge:
http://wordlist.sourceforge.net/
Вы также можете выполнить поиск вариантов использования такого списка, чтобы найти подходящий источник данных.
Например:
Алгоритмы проверки правописания используют список слов (автономные средства проверки правописания, приложения для обработки текста, такие как OpenOffice и т. Д.).
В алгоритмах игры в слова используются слова (игры типа «Эрудит», словарные игры, генераторы кроссвордов)
Алгоритм взлома пароля использует слова, чтобы помочь найти слабые пароли.
outpost9.com/files/WordLists.html
Также есть несколько API-интерфейсов Java на выбор, и только некоторые из них работают с последним словарем (3.1). В MIT используется Java 5 и слова с WordNet 3.1.