Вывод на слом данных с текстовым значением в CSV-файле - PullRequest
0 голосов
/ 28 июня 2018

Я новичок в удалении веб-страниц с использованием Python, и мне нужна помощь по извлечению имени подкатегории (заголовка) и заголовка страницы (заголовка основной категории) с URL-адресами, которые удаляются моим кодом Python. Я пробовал .text с BeautifulSoup, но я думаю, что может быть лучший вариант для выполнения этой задачи, так как я получаю сообщение об ошибке и не используется выходных данных.

Помощь будет оценена. Пожалуйста, посмотрите на код и справку по выводу, хранящемуся в CSV-файле с URL \ t Заголовок подкатегории \ t Заголовок основной категории.

Пример: URL подкатегории Требуется:

http://www.medicalexpo.com/medical-manufacturer/neonatal-incubator-2963.html        Neonatal incubators        Pediatrics
http://www.medicalexpo.com/medical-manufacturer/infant-radiant-warmer-13522.html        
Infant radiant warmers      Pediatrics
http://www.medicalexpo.com/medical-manufacturer/infant-phototherapy-lamp-44327.html        Infant phototherapy lamps        Pediatrics

как то так

Код:

from bs4 import BeautifulSoup
import requests
import unicodecsv
import time
import random

def get_soup(url):
    return BeautifulSoup(requests.get(url).content, "lxml")

url = 'http://www.medicalexpo.com/'
soup = get_soup(url)
raw_categories = soup.select('div.univers-main li.category-group-item a')
print(raw_categories)
category_links = {}

for cat in (raw_categories):
    t0 = time.time()
    response_delay = time.time() - t0 
    time.sleep(10*response_delay) 
    time.sleep(random.randint(2,5)) 
    soup = get_soup(cat['href'])
    links = soup.select('#category-group li a')

    category_links[cat.links] = [link['href'] for link in links]
    print(category_links)
...