Я хотел использовать BeautifulSoup
для анализа HTML, полученного с помощью urllib.request.urlopen
, но я просто не могу получить версию DOM.
Я искал в Интернете решения, но все, что могнайти был совет, чтобы использовать soup = BeautifulSoup(rawHTML, 'html.parser')
.В любом случае, это не дает мне код DOM, который мне нужен, чтобы найти конкретную строку (если это помогает, я хочу найти изображения с помощью soup.findAll('img')
. Я установил lxml
import urllib.request
from bs4 import BeautifulSoup
siteURL = "https://www.instagram.com/instagram/"
rawHTML = urllib.request.urlopen(siteURL)
soup = BeautifulSoup(rawHTML, 'html.parser')
print(len(soup.findAll('img'))) # prints '0'
Я надеялся получить фактическое количество изображений, но на выходе было 0.
Я также пытался print(soup.text)
и print(soup.prettify)
и искал в этих текстах слово "img", но ничего не нашел.