Я попытался webscraping с использованием Beautifulsoup в Python - PullRequest
0 голосов
/ 08 апреля 2019

Я попробовал Web_Scraping с использованием Beautiful Soup в python. Но я столкнулся с проблемой для капчи. Я пытался получить данные на сайт, используя Beautiful Soup в Python, но он просит человека проверить, как решить эту проблему, любой дает мне решение ... PLZ

webscrapy.py

from bs4 import BeautifulSoup
from urllib.request import urlopen
import html5lib
import requests
import urllib
import pandas as pd
import xlsxwriter
from docx import Document
from docx.shared import Inches

document = Document()

url = "https://www.newegg.com/Product/ProductList.aspx?Submit=ENE&DEPA=0&Order=BESTMATCH&Description="
Remaining_url="&ignorear=0&N=-1&isNodeId=1"
product_name = 'HP Desktop Computer 6200 Intel Core i3 2nd Gen 2100 (3.10 GHz) 4 GB DDR3 250 GB HDD Windows 7 Professional 64-bit'
p = document.add_paragraph("Product_name " +":"+"  "+product_name)

search_words = {'text': product_name}
search_url = urllib.parse.urlencode(search_words).split("=")[1]
product_url = url + search_url + Remaining_url
print(product_url)
# content = urlopen(product_url).read()
content = requests.get(product_url, timeout=20)
if content.status_code == 200:
    content = urlopen(product_url).read()
    soup = BeautifulSoup(content, "html5lib")
    product_list = soup.find_all("div", class_="list-wrap")[0].find_all("div", class_="item-container")[0].find_all("a", class_="item-img")[0]
    convert_string = str(product_list).split('"')[3]
    content = requests.get(convert_string, timeout=20)
    if content.status_code == 200:
        content = urlopen(convert_string).read()
        soup = BeautifulSoup(content, "html5lib")
        print(str(soup.find_all("div", class_="grpAside")[0].find_all("span",class_="mainSlide")[0]).split(" ")[3].split('"')[1])
    else:
        print("Its TimeOut")
else:
    print("Its Timeout")

1 Ответ

0 голосов
/ 13 апреля 2019

да, я рекомендую библиотеку запросов, запросы установки pip

использовать объект запросы. Сессия () добавить заголовки и реферер в заголовок и пользовательский агент напечатайте заголовки HTML, чтобы проверить ваш запрос sleep (x) между каждым запросом, разные сайты имеют разные правила Например, популярный сайт электронной коммерции не будет давать меньше 7 секунд между запросами

кто-то упомянул, что кто-то платит за такую ​​работу, я уже написал вращающиеся прокси и спуфер браузера ....... дайте мне знать, если вы заинтересованы ... я могу дать хорошую цену. Кроме того, вам придется изменить свой IP, если вы хотите попробовать новую тактику на newegg.com, они, вероятно, уже пометили вас для всех ваших запросов роботов

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...