Соскоб веб-разбор HTML является неправильным по сравнению с оригинальным - PullRequest
0 голосов
/ 25 октября 2018

Я сталкиваюсь с проблемой, что когда я использую Beautifulsoup для очистки данных с веб-сайта, он не может проанализировать правильный HTML для меня, потому что я не могу найти отдельные элементы, которые мне нужно использовать, такие как мне нужно найтивсе href от , но результаты поиска в Интернете неверны. Это мой код, как я могу решить эту проблему?

from urllib.request import urlopen
from bs4 import BeautifulSoup
import csv
import requests
import pandas as pd
import time
from time import gmtime, strftime
import datetime
import http.client
 url="https://www.ebay.com/sch/i.html_from=R40&_sacat=0&_nkw=rig+mining&rt=nc"
try:
   html =requests.get(url, headers={
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36"})
except (http.client.IncompleteRead) as e:
     html = e.partial
soup = BeautifulSoup(html.content,"lxml")
print(soup)
list1=[]
for pagelinks in soup.findAll("td",attrs={"class":"pagn-next"}): 
    list1.append(pagelinks.get("href"))
print(list1)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...