Есть ли способ извлечь наиболее важные ключевые слова из текста?
Да.По сути, вы извлекаете все слова из текста, сортируете их по частоте, удаляете общие слова (a, an, the и т. Д.), Сопоставляя их со словарем общих слов, и сохраняете 20 или более лучших слов вместес частотой, с каждой статьи.
Количество ключевых слов, которые вы сохраняете, связано как с длиной статьи, так и с темой всех статей.Меньше слов работает для статей общего интереса, в то время как для статей особого интереса требуется больше слов, таких как ответы на вопросы программирования.
Статьи, которые соответствуют более чем половине главных слов, могут считаться связанными.Степень родства будет зависеть от количества совпадающих главных слов и частоты совпадающих слов.
Вы можете рассчитать показатель родства, умножив частоты каждого подходящего слова из двух статей и суммируя все произведения,Чем выше балл, тем больше статей связано.