Преобразовать имя домена в его формат URL для разбора URL - PullRequest
0 голосов
/ 14 апреля 2020

В моем скрипте Python, касающемся парсинга URL html .text, вход в мое приложение фиксирован, т.е. доменное имя.

Однако мне нужно сохранить и обработать это доменное имя в формате URL , Мне кажется, что для этой цели нежелательно просто добавлять к имени домена «https: //».

Как видно ниже, при вставке URL происходит сбой, поскольку он получает формат домена, а не URL.

from urllib.request import Request, urlopen
import requests

url = 'xyz.com' # it is a domain name. But requires it to be in URL format to perform further parsing.

# Option 1
html=urlopen(url).read()

# Option 2
resp = requests.get(url)
html = resp.text

# Error encountered: Invalid URL.

Как правильно преобразовать доменное имя в формат URL?

1 Ответ

1 голос
/ 14 апреля 2020

Если вы хотите узнать, работает ли "http://"+url или "https://"+url, вы можете просто проверить оба:

from urllib.request import urlopen
from urllib.error import URLError

url = 'yourpage.com'
try:
  html=urlopen("https://"+url).read()
except URLError:
  html=urlopen("http://"+url).read()
...