Я не совсем уверен, что вы пытаетесь сделать, но если вам нужно создать список представительных слов для ряда категорий, то вы могли бы сделать это, выбрав N наиболее часто встречающихся слов, исключая стоп-слова , из комплекта документов представителя каждой категории.Это простой способ создания очень простой онтологии.
Например, чтобы создать набор слов о food , вы можете сканировать сеть для recies и меню , а затем выберите наиболее часто встречающиеся слова из них.Я ожидаю, что после исключения стоп-слов у вас будет хороший список слов, связанных с едой.Для слов, связанных с программированием , вы можете сканировать stackoverflow.com и т. Д. И т. Д.
Опять же, это может быть не тем, что вы пытаетесь сделать...