Впервые я попытался использовать BeautifulSoup для сканирования HTML.
Часть, которую я хотел сканировать, находилась под изображением (красное поле).
введите здесь описание изображения
Поэтому я делаю код для использования запроса и bs , вот так.
response = requests.get(Url_Front+str(url)+Url_End).text
soup = bs(response)
print(respone)
но результат выглядит так ...
<script src="/sijangtong/js/jquery/jquery-1.8.1.js" type="text/javascript"></script>
<script src="/sijangtong/js/jquery/jquery-ui.js" type="text/javascript"></script>
<script src="/sijangtong/js/jquery/form/jquery.form.js" type="text/javascript"></script>
<script src="/sijangtong/js/jquery/jquery.cookie.js" type="text/javascript"></script>
<script src="/sijangtong/js/jquery/dynatree/jquery.dynatree.js" type="text/javascript" ></script>
<script src="/sijangtong/js/jquery/simplemodal/jquery.simplemodal-1.4.3.js" type="text/javascript" ></script>
<script src="/sijangtong/js/sijang/sijang_comm.js" type="text/javascript" ></script>
<script src="/sijangtong/js/sijang/sijang_util.js" type="text/javascript" ></script>
Тонны времени, потраченного на то, чтобы заметить, что он должен использовать «Селен».
import requests
from bs4 import BeautifulSoup as bs # HTML parser library
from selenium import webdriver # web crawling for javascript
for url in Url_Number:
driver = webdriver.Chrome('C:\Python_Study\chromedriver.exe.')
driver.implicitly_wait(3)
Real_url = Url_Front+str(url)+Url_End
driver.get(Real_url)
div_elements = driver.find_elements_by_xpath('//*[@id="onnuriShopPopList"]/table/tbody/tr[1]/td/table/tbody')
for my_div_elements in div_elements:
print(my_div_elements.get_attribute("table"))
driver.quit()
Результат выглядит примерно так.
runfile ('C: / Users / rlatj / .spyder-py3 / temp.py', wdir = 'C: / Users / rlatj / .spyder-py3') Нет
На самом деле, я не знаю, где мне это исправить.
- Имею ли я правильную концепцию HTML и селена?
Моя концепция: селен может сканировать javascript парсер в HTML.
Почему результат «Нет»?