Учитывая абсолютный URL-адрес страницы и относительную ссылку, найденную на этой странице, будет ли способ a) окончательно реконструировать или b) наилучшим образом реконструироватьабсолютный URL-адрес относительной ссылки?
В моем случае я читаю html-файл с заданного URL-адреса, используя красивый суп, убираю все источники тегов img и пытаюсь составить список абсолютных URL-адресов дляизображения страницы.
Моя функция Python до сих пор выглядит следующим образом:
function get_image_url(page_url,image_src):
from urlparse import urlparse
# parsed = urlparse('http://user:pass@NetLoc:80/path;parameters?query=argument#fragment')
parsed = urlparse(page_url)
url_base = parsed.netloc
url_path = parsed.path
if src.find('http') == 0:
# It's an absolute URL, do nothing.
pass
elif src.find('/') == 0:
# If it's a root URL, append it to the base URL:
src = 'http://' + url_base + src
else:
# If it's a relative URL, ?
ПРИМЕЧАНИЕ: Не нужен ответ Python, только требуется логика.