Онлайн (желательно) API поиска класса слова - PullRequest
1 голос
/ 04 марта 2009

У меня есть список слов, и я хочу отфильтровать его, чтобы у меня были только существительные из этого списка слов (с использованием Java). Для этого я ищу простой способ запросить базу данных слов для их типа.

Мой вопрос: кто-нибудь знает о бесплатном, легком API для поиска слов, который позволил бы мне найти класс слова, не обязательно его семантическое определение.

Спасибо!

Бен.

РЕДАКТИРОВАТЬ: Под классом слова я имел в виду «часть речи» спасибо за разъяснение этого

Ответы [ 4 ]

3 голосов
/ 04 марта 2009

Тип слова? Такие как глагол, существительное, прилагательное и т. Д.? Если это так, вы можете столкнуться с проблемой, что некоторые слова могут использоваться более чем одним способом. Например: «Можете ли вы обменять мне эту карту?», «Это была плохая сделка».

См. в этой теме для некоторых предложений.

Взгляните также на этот , похоже, он может сделать именно то, что вы ищете.

2 голосов
/ 11 марта 2009

Я думаю, что вы ищете часть речи (POS) слова. В общем, это будет невозможно определить, кроме как в контексте предложения. Есть много слов, которые могут иметь несколько различных потенциальных частей речи (например, «банк» может использоваться как глагол или существительное).

Вы можете использовать POS-тегер для получения необходимой информации. Тем не менее, следующие теги части речи предполагают, что вы помечаете слова в хорошо структурированном английском предложении ...

  • Библиотеки Java OpenNLP , как правило, очень хороши и выпущены в соответствии с LGPL. Для распространения английского и некоторых других языков, включенных в дистрибутив, предусмотрен тег части речи. Просто зайдите на страницу проекта, чтобы получить банку (и не забудьте также загрузить модели).

  • Существует также Стэнфордский тэгер части речи , написанный на Java под лицензией GPL. У меня не было прямого опыта работы с этой библиотекой, но лаборатория Stanford NLP, как правило, довольно крутая.

0 голосов
/ 05 марта 2009

Для английского языка вы можете использовать WordNet с одним из доступных API Java , чтобы найти лексическую категорию слова (которое в НЛП чаще всего называют частью речи ). Использование выделенного тега POS было бы другим вариантом.

0 голосов
/ 05 марта 2009

Запрос к базе данных слов приведет к проблеме, о которой упоминает Бен С., например это свинец (v. чтобы показать путь) или свинец (n. Pb). Если вы хотите потратить некоторое время на проблему, посмотрите на теги части речи. В есть еще одна хорошая информация .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...