Фильтровать слова, относящиеся к широкой категории - PullRequest
0 голосов
/ 02 апреля 2012

У меня есть список слов (если они должны храниться в String []). Я хочу отфильтровать слова, которые относятся к широкой общей категории, такие как Музыка или Спорт .

Есть ли готовое решение для этого (даже если это только для ограниченного набора общих категорий)?

Или как бы вы поступили так?

Это должно быть сделано в Java 1.6 , и это проблема НЛП (обработки естественного языка). Во входном списке слов есть случайные слова, и я хочу извлечь из этого большого списка только слова, которые относятся к данной общей категории (которая будет подмножеством).

Другой способ мышления: Учитывая одно слово, я хочу определить, принадлежит ли это слово к категории. Примерно так:

String word1 = "football"; //the strings will always be single word units
String word2 = "telephone";
boolean b1 = belongsToCategory(Categories.SPORTS, word1); //true
boolean b2 = belongsToCategory(Categories.SPORTS, word2); //false

Если вам нужна дополнительная информация, пожалуйста, спросите.

1 Ответ

0 голосов
/ 02 апреля 2012

Ну, моя идея состояла бы в том, чтобы держать набор слов для каждой категории и искать слово в каждом наборе.

Конечно, этот набор стал бы огромным, и его было бы невозможно поддерживать, если бы вы держали все отклоненные формы для одного слова. Я хотел бы рассмотреть возможность использования лемматизации для ограничения размера этого набора. Возможно, вам будет интересно проверить следующие ссылки: Лемматизация в Википедии а также Лемматизация Java

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...