Как получить теги / ключевые слова с веб-страницы / канала? - PullRequest
1 голос
/ 21 июня 2010

Мне нужно создать облако тегов из веб-страницы / канала.Как только вы получите таблицу тэгов частоты слов, вы легко сможете создать облако тегов.Но я сомневаюсь, как мне получить теги / ключевые слова с веб-страницы / канала?

Это то, что я делаю сейчас:

Получить содержимое -> вырезать HTML -> разделить их с помощью \ s \ n \ t (пробел, новая строка, вкладка) -> список ключевых слов

Но это не очень хорошо работает.

Есть ли лучший способ?

1 Ответ

0 голосов
/ 15 июля 2010

То, что у вас есть, является приблизительным приближением 1-го порядка.Я думаю, что если вы затем вернетесь к данным и выполните поиск частоты фраз из 2 слов, а затем из фраз из 3 слов, вплоть до общего количества слов, которое можно считать тегом, вы получите лучшее представление частоты ключевых слов.

Вы можете уточнить этот пример грубого поиска, указав определенные слова, которые могут содержаться как часть фразы (местоимения и т. Д.).

...