Я новичок в удалении веб-страниц с использованием Python, и мне нужна помощь по извлечению имени подкатегории (заголовка) и заголовка страницы (заголовка основной категории) с URL-адресами, которые удаляются моим кодом Python. Я пробовал .text с BeautifulSoup, но я думаю, что может быть лучший вариант для выполнения этой задачи, так как я получаю сообщение об ошибке и не используется выходных данных.
Помощь будет оценена. Пожалуйста, посмотрите на код и справку по выводу, хранящемуся в CSV-файле с URL \ t Заголовок подкатегории \ t Заголовок основной категории.
Пример: URL подкатегории
Требуется:
http://www.medicalexpo.com/medical-manufacturer/neonatal-incubator-2963.html Neonatal incubators Pediatrics
http://www.medicalexpo.com/medical-manufacturer/infant-radiant-warmer-13522.html
Infant radiant warmers Pediatrics
http://www.medicalexpo.com/medical-manufacturer/infant-phototherapy-lamp-44327.html Infant phototherapy lamps Pediatrics
как то так
Код:
from bs4 import BeautifulSoup
import requests
import unicodecsv
import time
import random
def get_soup(url):
return BeautifulSoup(requests.get(url).content, "lxml")
url = 'http://www.medicalexpo.com/'
soup = get_soup(url)
raw_categories = soup.select('div.univers-main li.category-group-item a')
print(raw_categories)
category_links = {}
for cat in (raw_categories):
t0 = time.time()
response_delay = time.time() - t0
time.sleep(10*response_delay)
time.sleep(random.randint(2,5))
soup = get_soup(cat['href'])
links = soup.select('#category-group li a')
category_links[cat.links] = [link['href'] for link in links]
print(category_links)