Разбор HTML для доменных ссылок - PullRequest
0 голосов
/ 07 мая 2010

У меня есть скрипт, который анализирует HTML-страницу для всех ссылок в нем.Я получаю все из них в порядке, но у меня есть список доменов, с которыми я хочу сравнить его.Таким образом, примерный список содержит

list=['www.domain.com', 'sub.domain.com']

Но у меня может быть список ссылок, которые выглядят как

http://domain.com
http://sub.domain.com/some/other/page

Я могу убрать http: // просто отлично, но в двухПримеры ссылок я только что опубликовал, они оба должны совпадать.Первый я хотел бы сопоставить с www.domain.com, а второй, я хотел бы сопоставить с поддоменом в списке.

Сейчас я использую url2lib для анализа html.Каковы мои варианты полностью в этой задаче?

1 Ответ

2 голосов
/ 07 мая 2010

Вы можете рассмотреть возможность удаления "www."от list и делать что-то такое простое, как:

url = 'domain.com/'
for domain in list:
    if url.startswith(domain):
        ... do something ...

Или попытка обоих не повредит ни одному из них:

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...