Я хочу сканировать в Интернете, но некоторые элементы сканируются, но некоторые элементы не сканируются. Я не знаю причину - PullRequest
1 голос
/ 24 февраля 2020

Я использую BeautifulSoup в python для очистки веб-сайта.

Пока сканируется addrs, a_earths, points = soup.select('.addr_point') в конце Этот раздел не может быть просканирован. Я не знаю причину (пунктирная красная рамка в Изображение веб-страницы )

Ниже приведен блок кода, который я использую:

import urllib.parse
from bs4 import BeautifulSoup
import re

url = 'http://www.dooinauction.com/auction/ca_list.php'

req = urllib.request.Request(url) #
html = urllib.request.urlopen(req).read()
soup = BeautifulSoup(html, 'html.parser') 

tots = soup.select('div.title_left font') #total
tot = int(re.findall('\d+', tots[0].text)[0]) 
print(f'total : {tot}건')

url = f'http://www.dooinauction.com/auction/ca_list.php?total_record={tot}&search_fm_off=1&search_fm_off=1&start=0'
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')

addrs = soup.select('.addr')  # crawling OK
a_earths = soup.select('.list_class.bold') #crawling OK
points = soup.select('.addr_point') #crawling NO
print()

Изображение веб-страницы

1 Ответ

0 голосов
/ 24 февраля 2020

Я просматриваю ваш сайт, и кажется, что я не вижу раздел addr_points. Я думаю, может быть, в этом причина.

Снимок экрана:

screenshot

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...