Хотя URL-адрес не является обязательным, его можно хранить как Unicode.
BeautifulSoup
работает с Unicode.
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("""<a href="ascii">""", fromEncoding="utf-8")
>>> isinstance(soup('a', href=True)[0]['href'], unicode)
True
>>> soup = BeautifulSoup("""<a href="αβγ">""", fromEncoding="utf-8")
>>> soup('a', href=True)[0]['href']
u'\u03b1\u03b2\u03b3'
В обоих случаях URL-адрес unicode
.
Вы можете позвонить isinstance()
или type()
, чтобы узнать, какой тип имеет URL.
Вы можете указать encoding=None
, чтобы получить Unicode:
i.renderContents(encoding=None)
В целом, может быть полезно использовать dir(obj)
, help(obj.method)
в интерактивной консоли Python. См. Также Печать документа .