Я пытаюсь определить наиболее популярные ключевые слова для определенного класса документов в моей коллекции.Предполагая, что доменом является «компьютерная наука» (которая, конечно, включает в себя сетевые технологии, компьютерную архитектуру и т. Д.), Каков наилучший способ сохранить эти ключевые слова, относящиеся к области, из текста?Я пытался использовать Wordnet, но я не совсем уверен, как лучше всего использовать его для извлечения этой информации.
Есть ли какой-либо известный список слов, который я могу использовать в качестве белого списка, учитывая тот факт, что я не знаю овсе ключевые слова для конкретного домена заранее?Или есть какие-нибудь хорошие методы nlp / машинного обучения для определения ключевых слов, специфичных для предметной области?