Какой метод я должен использовать для извлечения ключевых слов из URL? - PullRequest
2 голосов
/ 18 февраля 2011

Я работаю над извлечением ключевых слов.Система принимает URL в качестве входных данных, а выходные данные должны быть ключевыми словами, описывающими содержимое URL.Сейчас мы рассматриваем только текстовые части.Я хотел бы знать, какие методы я могу использовать для извлечения ключевых слов из URL и как они сравниваются друг с другом.Предложения и перенаправления приветствуются.

1 Ответ

1 голос
/ 28 февраля 2011

я думаю, что вы можете использовать этот метод

прочитать сайт с помощью urllib (http://docs.python.org/library/urllib2.html?highlight=urllib2#module-urllib2), а затем удалить теги и создать плоский текст сайта

, а затем проверить, какие слова являютсяиспользовал больше.затем создайте лучшие десятки (или количество)

...