Источник для перебора всех слов английского словаря - PullRequest
2 голосов
/ 13 января 2012

Мне нужно перебрать все слова в словаре английского языка и отфильтровать определенное, основываясь на том, являются ли они существительным / глаголом или чем-то еще, а также на некоторых других чертах.Есть ли что-нибудь, что я мог бы использовать в качестве источника для этих слов?

Ответы [ 2 ]

2 голосов
/ 12 января 2013

Просто хотел бы отметить, что в отношении WordNet существуют «стоп-слова», которые не включены. Некоторые люди онлайн сделали списки стоп-слов, но я не уверен, насколько они полны. Некоторые стоп-слова: «то», «тот», «я», «до» от «чей».

Большой список здесь: http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html

Список слов смотрите в этом проекте sourceforge: http://wordlist.sourceforge.net/

Вы также можете выполнить поиск вариантов использования такого списка, чтобы найти подходящий источник данных.

Например:

  • Алгоритмы проверки правописания используют список слов (автономные средства проверки правописания, приложения для обработки текста, такие как OpenOffice и т. Д.).

  • В алгоритмах игры в слова используются слова (игры типа «Эрудит», словарные игры, генераторы кроссвордов)

  • Алгоритм взлома пароля использует слова, чтобы помочь найти слабые пароли. outpost9.com/files/WordLists.html

Также есть несколько API-интерфейсов Java на выбор, и только некоторые из них работают с последним словарем (3.1). В MIT используется Java 5 и слова с WordNet 3.1.

1 голос
/ 13 января 2012

Я рекомендую WordNet от princeton.edu. Это популярная английская лексическая база данных с такими атрибутами слов, как:

  1. Краткое определение
  2. Часть речи, например, существительное, глагол, прилагательное и т. Д.
  3. Синонимы и группировки

Существует WordNet Java API от smu.eduэто упростит использование WordNet в вашем приложении.Вы также можете загрузить базу данных и проанализировать ее самостоятельно, поскольку она сжата всего в 12 МБ.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...