Как использовать webscraping для удаления данных в Inspect Elemrnt или просмотреть исходный код страницы - PullRequest
0 голосов
/ 05 апреля 2019

Я попробовал webscraping в конкретном веб-сайте. Но я не могу получить тег. Я также вижу тег в элементе Inspect element и viewpage. Как получить тег, можете ли вы дать мне предложение.

WebScrapy.py

from bs4 import BeautifulSoup
from urllib.request import urlopen
import html5lib
import urllib
import pandas as pd
import xlsxwriter
from docx import Document
from docx.shared import Inches

document = Document()

url = "https://www.newegg.com/Product/ProductList.aspx?Submit=ENE&DEPA=0&Order=BESTMATCH&Description="
Remaining_url="&ignorear=0&N=-1&isNodeId=1"
product_name = 'Seagate 80GB 7200 RPM SATA 3.0Gb/s Internal Hard Drive (IMSourcing) Bare Drive'
p = document.add_paragraph("Product_name " +":"+"  "+product_name)

search_words = {'text': product_name}
search_url = urllib.parse.urlencode(search_words).split("=")[1]
product_url = url + search_url + Remaining_url
content = urlopen(product_url).read()
soup = BeautifulSoup(content, "html5lib")
print(soup.find_all("div", class_="list-wrap"))  

Я запускаю программу, выбрасывающую пустой список. Как это исправить, любой может дать любое решение.

1 Ответ

0 голосов
/ 08 апреля 2019

Да, это правильно, список результатов был пуст.

        <div class="result-message">
         <p class="result-message-title">
          <span class="result-message-error">
           We have found 0 items that match "Seagate 80GB 7200 RPM SATA 3.0Gb/s Internal Hard Drive (IMSourcing) Bare Drive".
          </span>
         </p>
        </div>

Вы можете сделать паузу между запросами GET, используя sleep():

time.sleep(1.5)
...