Очистка веб-сайта, не имеющего функции API - PullRequest
0 голосов
/ 17 июня 2020

Я пытаюсь очистить следующий веб-сайт: https://sg.carousell.com/search/tableminis?

, но когда я пытаюсь найти элементы для перехода в Beautiful soup, проверка тегов полностью сбивает с толку , и я не могу понять это.

Я провел небольшое исследование и выяснил, что на этом сайте используются случайные символы и числа. Так как мне его очистить? Нужно ли мне менять код ежедневно, чтобы продолжить парсинг?

from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

html=requests.get("https://sg.carousell.com/search/tableminis?")
soup=BeautifulSoup(html.text,"html.parser")
atag=soup.find_all('p', class_=re.compile("_1g"))
itemtitle=[]
itemprice=[]
for a in atag:
  for title,price in zip(a.find_all('p', class_=re.compile("_30")),a.find_all('div', class_=re.compile("_3k"))):
      itemtitle.append(title.text)
      itemprice.append(price.find('div').text)

df=pd.DataFrame({"Title" :itemtitle, "Price" : itemprice})
print(df)
...