используйте регулярное выражение для извлечения ссылок из href = "URL"
затем объединить с доменом, если он не начинается с "http"
Вот пример Python:
import re
import urlparse
domain = ...
html = ...
links = re.findall('href=[\'"](.*?)[\'"]', html)
links = [urlparse.urljoin(domain, link) for link in links if link]