То, что у вас есть, является приблизительным приближением 1-го порядка.Я думаю, что если вы затем вернетесь к данным и выполните поиск частоты фраз из 2 слов, а затем из фраз из 3 слов, вплоть до общего количества слов, которое можно считать тегом, вы получите лучшее представление частоты ключевых слов.
Вы можете уточнить этот пример грубого поиска, указав определенные слова, которые могут содержаться как часть фразы (местоимения и т. Д.).