Webscraping emedded содержание ссылки в URL - PullRequest
0 голосов
/ 23 марта 2019

Я пытаюсь очистить веб-сайт от отзывов о продукте и не могу присвоить более одного URL-адреса переменной. По сути, мне нужно почистить URL в URL определенного содержания.

У меня есть родительский URL и три связанные страницы, на которых можно найти информацию о продукте, такую ​​как отзывы, звезды и т. Д. При передаче более одного URL-адреса назначенной переменной выдается «ошибка адаптера соединения». Я также пытался просто скомпилировать или скопировать один и тот же код три раза безрезультатно.

import requests as r
from bs4 import BeautifulSoup
import csv

url1 = 'http://drd.ba.ttu.edu/isqs6339/imbadproducts/'

filepath = 'dataout.csv'

res = r.get(url1)

res.content

soup = BeautifulSoup(res.content,'lxml')

results = soup.find("a")
    print(results)

print(results['href'])

results = soup.find_all("a")

for l in results:
    print(l['href'])

for l in results:
    print(l.text)

print(res.headers)

product_result = soup.find_all('a')
for pr in product_result:
    print(pr)

search_results = soup.find('div', attrs={'id' : 'searchresults'})

product_result = search_results.find_all('a')
for pr in product_result:
    print(pr)

Итак, я предоставил одну ссылку, но у меня есть три встроенных ссылки и разные теги для очистки. Мне никогда не удавалось обойти ошибку адаптера соединения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...