Я пытаюсь получить веб-сайт (habr.com) page_source
, используя python3
и selenium
, но есть некоторые теги svg
, которые содержат use
теги с параметром xlink:href
и #shadow-root (closed)
в них.Этот мир html
выглядит следующим образом:
Мой python
код такой:
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://habr.com/en')
source = driver.page_source
ЯДелая это, используя только python
интерпретатор, а не из файла, так что есть достаточно времени, чтобы загрузить все ресурсы.Итак, переменная source
будет содержать все html, кроме этой #shadow-root (closed)
части.
Я пробовал это решение, но я думаю, оно работает только с #shadow-root (open)
.
Что я должен сделать, чтобы получить весь источник HTML, включая эти Shadow DOM
части?
ОБНОВЛЕНИЕ: Весь смысл в том, что я хочу сделать что-то вродепрокси-сервера, который будет указывать на нужный веб-сайт и изменить все ссылки на странице на мой localhost
.Чтобы сделать правильные тесты, я хотел получить исходный html с целевого сайта и сравнить его тег за тегом с исходным html моего localhost
.Но я не могу этого сделать, пока не получу этот контент Shadow DOM
.Я имею в виду, что могу это сделать, но это не будет объективным тестом.