Какой самый простой способ сравнить две веб-страницы с помощью Python? - PullRequest
3 голосов
/ 08 марта 2011

Здравствуйте, я хочу сравнить две веб-страницы, используя скрипт Python.как я могу этого достичь?заранее спасибо!

Ответы [ 2 ]

4 голосов
/ 08 марта 2011

Сначала вы хотите получить обе веб-страницы.Вы можете использовать wget, urlretrieve и т. П.Вы можете использовать инструмент «diff», как отметил Чинмей.Вы также можете выполнить анализ ключевых слов на двух страницах:

  1. Разобрать все ключевые слова со страницы.например, Как мне извлечь ключевые слова, используемые в тексте?
  2. При желании взять "ствол" слов с чем-то вроде:
    http://pypi.python.org/pypi/stemming/1.0
  3. Использовать немного математикисравнить ключевые слова на двух страницах, например, термин «частота-обратная частота документа»: http://en.wikipedia.org/wiki/Tf%E2%80%93idf с некоторыми инструментами python, такими как: http://wiki.python.org/moin/InformationRetrieval
2 голосов
/ 08 марта 2011

Что вы подразумеваете под сравнением? Если вы просто хотите найти различия между двумя файлами, попробуйте difflib , который является частью стандартной библиотеки Python.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...