На сайте представлено шесть основных товарных категорий. Продукты, которые относятся к подкатегории, также можно найти в основной категории (например, продукты в /furniture/furniture/tables
также можно найти в /furniture
), поэтому вам нужно только собирать продукты из основных категорий. Вы можете получить ссылки на категории с главной страницы, но было бы проще использовать карту сайта.
url = 'https://www.courts.com.sg/sitemap/'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
cats = soup.select('li.level-0.category > a')[:6]
links = [i['href'] for i in cats]
Как вы упомянули, есть некоторые ссылки, которые имеют разную структуру, например, такую: /televisions
. Но если вы нажмете ссылку View All Products
на этой странице, вы будете перенаправлены на /tv-entertainment/vision/television
. Таким образом, вы можете получить все /televisions
rпродукты от /tv-entertainment
. Аналогичным образом товары в ссылках на бренды можно найти в основных категориях. Например, продукты /asus
можно найти в /computing-mobile
и других категориях.
Приведенный ниже код собирает товары всех основных категорий, поэтому он должен собирать все товары на сайте.
from bs4 import BeautifulSoup
import requests
url = 'https://www.courts.com.sg/sitemap/'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
cats = soup.select('li.level-0.category > a')[:6]
links = [i['href'] for i in cats]
products = []
for link in links:
link += '?product_list_limit=24'
while link:
r = requests.get(link)
soup = BeautifulSoup(r.text, 'html.parser')
link = (soup.select_one('a.action.next') or {}).get('href')
for elem in soup.select(".product-item-info .product-item-link"):
product = elem.get_text(strip=True)
products += [product]
print(product)
Я увеличил количество товаров на странице до 24, но все же этот код занимает много времени, так как он собирает товары всех основных категорий и их ссылки на страницы. Тем не менее, мы могли бы сделать это намного быстрее с использованием threads .
from bs4 import BeautifulSoup
import requests
from threading import Thread, Lock
from urllib.parse import urlparse, parse_qs
lock = Lock()
threads = 10
products = []
def get_products(link, products):
soup = BeautifulSoup(requests.get(link).text, 'html.parser')
tags = soup.select(".product-item-info .product-item-link")
with lock:
products += [tag.get_text(strip=True) for tag in tags]
print('page:', link, 'items:', len(tags))
url = 'https://www.courts.com.sg/sitemap/'
soup = BeautifulSoup(requests.get(url).text, 'html.parser')
cats = soup.select('li.level-0.category > a')[:6]
links = [i['href'] for i in cats]
for link in links:
link += '?product_list_limit=24'
soup = BeautifulSoup(requests.get(link).text, 'html.parser')
last_page = soup.select_one('a.page.last')['href']
last_page = int(parse_qs(urlparse(last_page).query)['p'][0])
threads_list = []
for i in range(1, last_page + 1):
page = '{}&p={}'.format(link, i)
thread = Thread(target=get_products, args=(page, products))
thread.start()
threads_list += [thread]
if i % threads == 0 or i == last_page:
for t in threads_list:
t.join()
print(len(products))
print('\n'.join(products))
Этот код собирает 18 466 товаров с 773 страниц примерно за 5 минут. Я использую 10 потоков, потому что я не хочу сильно нагружать сервер, но вы можете использовать больше (большинство серверов могут легко обрабатывать 20 потоков).