Можно ли извлечь версию DOM сайта в Python? - PullRequest
0 голосов
/ 26 апреля 2019

Я хотел использовать BeautifulSoup для анализа HTML, полученного с помощью urllib.request.urlopen, но я просто не могу получить версию DOM.

Я искал в Интернете решения, но все, что могнайти был совет, чтобы использовать soup = BeautifulSoup(rawHTML, 'html.parser').В любом случае, это не дает мне код DOM, который мне нужен, чтобы найти конкретную строку (если это помогает, я хочу найти изображения с помощью soup.findAll('img'). Я установил lxml

import urllib.request
from bs4 import BeautifulSoup

siteURL = "https://www.instagram.com/instagram/"
rawHTML = urllib.request.urlopen(siteURL)

soup = BeautifulSoup(rawHTML, 'html.parser')

print(len(soup.findAll('img')))  # prints '0'

Я надеялся получить фактическое количество изображений, но на выходе было 0.

Я также пытался print(soup.text) и print(soup.prettify) и искал в этих текстах слово "img", но ничего не нашел.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...