Как сканировать эти скрипты в python - PullRequest
0 голосов
/ 12 июля 2020

Впервые я попытался использовать BeautifulSoup для сканирования HTML.

Часть, которую я хотел сканировать, находилась под изображением (красное поле).

введите здесь описание изображения

Поэтому я делаю код для использования запроса и bs , вот так.

    response = requests.get(Url_Front+str(url)+Url_End).text
    
    soup = bs(response)

    print(respone)

но результат выглядит так ...

<script src="/sijangtong/js/jquery/jquery-1.8.1.js" type="text/javascript"></script>
<script src="/sijangtong/js/jquery/jquery-ui.js" type="text/javascript"></script>
<script src="/sijangtong/js/jquery/form/jquery.form.js" type="text/javascript"></script>
<script src="/sijangtong/js/jquery/jquery.cookie.js" type="text/javascript"></script>  
<script src="/sijangtong/js/jquery/dynatree/jquery.dynatree.js" type="text/javascript" ></script>
<script src="/sijangtong/js/jquery/simplemodal/jquery.simplemodal-1.4.3.js" type="text/javascript" ></script>
<script src="/sijangtong/js/sijang/sijang_comm.js" type="text/javascript" ></script>
<script src="/sijangtong/js/sijang/sijang_util.js" type="text/javascript" ></script>

Тонны времени, потраченного на то, чтобы заметить, что он должен использовать «Селен».


import requests
from bs4 import BeautifulSoup as bs  # HTML parser library
from selenium import webdriver  # web crawling for javascript

for url in Url_Number:
    driver = webdriver.Chrome('C:\Python_Study\chromedriver.exe.')
    driver.implicitly_wait(3)
    Real_url = Url_Front+str(url)+Url_End
    driver.get(Real_url)
    div_elements = driver.find_elements_by_xpath('//*[@id="onnuriShopPopList"]/table/tbody/tr[1]/td/table/tbody')

    for my_div_elements in div_elements:
        print(my_div_elements.get_attribute("table"))
driver.quit()

Результат выглядит примерно так.

runfile ('C: / Users / rlatj / .spyder-py3 / temp.py', wdir = 'C: / Users / rlatj / .spyder-py3') Нет

На самом деле, я не знаю, где мне это исправить.

  1. Имею ли я правильную концепцию HTML и селена?

Моя концепция: селен может сканировать javascript парсер в HTML.

Почему результат «Нет»?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...