Как классифицировать слова по соответствующим категориям? - PullRequest
4 голосов
/ 30 января 2011

Я должен реализовать классификацию текста для длинного списка слов.Я определил некоторые категории, например, если в списке есть слово «Великобритания», оно будет обозначено как «Регионы».Если слово «Пицца», оно будет относиться к категории «еда».

Как можно классифицировать слова по разным категориям?Есть ли какой-либо инструмент с открытым исходным кодом для этого?

1 Ответ

2 голосов
/ 30 января 2011

Я не совсем уверен, что вы пытаетесь сделать, но если вам нужно создать список представительных слов для ряда категорий, то вы могли бы сделать это, выбрав N наиболее часто встречающихся слов, исключая стоп-слова , из комплекта документов представителя каждой категории.Это простой способ создания очень простой онтологии.

Например, чтобы создать набор слов о food , вы можете сканировать сеть для recies и меню , а затем выберите наиболее часто встречающиеся слова из них.Я ожидаю, что после исключения стоп-слов у вас будет хороший список слов, связанных с едой.Для слов, связанных с программированием , вы можете сканировать stackoverflow.com и т. Д. И т. Д.

Опять же, это может быть не тем, что вы пытаетесь сделать...

...