Я пытаюсь очистить16, пока я не могу найти те же компоненты (теги или текст в целом), что и текст , обработанный (сброшен) (https://www.farfetch.com/ch/shopping/men/sale/all/items.aspx?page=1&view=180&scale=282) с помощью Beautifulsoup4). в soup.html) как в браузере в представлении dev tools (при поиске подходящих строк с помощью CTRL + F).
В моем коде нет ничего плохого, кроме как здесь:
#!/usr/bin/python
# imports
import bs4
import requests
from bs4 import BeautifulSoup as soup
# parse website
url = 'https://www.farfetch.com/ch/shopping/men/sale/all/items.aspx?page=1&view=180&scale=282'
response = requests.get(url)
page_html = response.text
page_soup = soup(page_html, "html.parser")
# write parsed soup to file
with open("soup.html", "a") as dumpfile:
dumpfile.write(str(page_soup))
Когда я перетаскиваю файл soup.html в браузер, все содержимое загружается как должно (например, реальный URL). Я предполагаю, что это какая-то защита от разбора? Я пытался установить соединениезаголовок, который сообщает веб-серверу на другой стороне, что я запрашиваю это у реального браузера, но он тоже не работает.
- Кто-нибудь сталкивался с чем-то подобным раньше?
- Есть ли способполучить НАСТОЯЩИЙ HTML, как показано в браузере?
Когда я ищу нужный контент в браузере, он (очевидно) появляется ...
Здесь парсРед HTML сохранен как "soup.html". Содержимое, которое я ищу, не может быть найдено, независимо от как Я ищу (CTRL + F) или функции bs4 find_all () или find () или чего-либо еще.