Question

Кажется, мой Google-фу подводит меня.

Кто-нибудь знает о свободно доступном словарном словаре, который содержит только слова? Так что для чего-то вроде клубники, это будет клубника. Но не содержит аббревиатуры или орфографические ошибки или альтернативные варианты написания (например, Великобритания против США)? Все, что можно быстро использовать в Java, было бы хорошо, но было бы полезно просто текстовый файл сопоставлений или все, что можно было бы прочитать.

Fred Foo · Answer 1 · 26 октября 2010

Это называется лемматизацией, а то, что вы называете «основанием слова», называется леммой.morpha и его повторная реализация в Stanford POS tagger делают это.Однако и то, и другое требует ввода тегов POS для разрешения присущей неоднозначности на естественном языке.

(тег POS означает определение категорий слов, например, существительное, глагол. Я предполагаю, что вам нужен инструмент, который обрабатывает английский язык.)

Редактировать : так как вы собираетесь использовать это для поиска, вот несколько советов:

Простой родословный для английского языка имеет смешанную репутацию вМир поисковых систем.Иногда это работает, часто - нет.
Автоматическая коррекция орфографии может работать лучше.Это то, что Google делает.Однако, если вы хотите сделать это правильно, это дорого с точки зрения вычислений.
Лемматизация может дать преимущества, но, вероятно, только если вы индексируете и ищете и слова и леммы,(Тот же совет касается и стемминга.)
Вот плагин для Lucene , который выполняет лемматизацию.

(Предыдущие замечания основаны на моем собственном исследовании; я написалМоя магистерская работа о лемматизации в поисковых системах для очень шумных данных.)

Logan Stinger · Answer 2 · 13 января 2011

http://www.puzzlers.org/dokuwiki/doku.php?id=solving:wordlists:about:start

Ссылка 9-й редакции Miriam Websters Collegiate на этой странице содержит файл слов только корневых форм слов.Там есть клубника, нет клубники.Точно так же «добавить» там, «добавления» нет.Не уверен, что это то, что вам нужно, но мне это помогло.

The Archetypal Paul · Answer 3 · 26 октября 2010

Это не совсем то, о чем вы просите, но Википедия по основам была поучительна и содержит ряд ссылок на бесплатные программы по основам.Который предположительно должен включать в себя списки словесных основ

База слов / словарь по основам

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

База слов / словарь по основам

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы