Я думаю, что наиболее точный способ сохранить видимость простоты - это подсчитать частоты слов в вашем источнике, а затем взвесить их в соответствии с их частотами в обычном английском (или любом другом языке) использовании.
Слова, которые встречаются реже в общем употреблении, например, "кофейня", чаще являются ключевым словом, чем слова, которые встречаются чаще, например, "собака". Тем не менее, если ваш источник упоминает «собаку» 500 раз и «кофейню» дважды, более вероятно, что «собака» - это ключевое слово, хотя это обычное слово.
Выбор схемы взвешивания будет трудной частью.