Я пытаюсь очистить веб-сайт от отзывов о продукте и не могу присвоить более одного URL-адреса переменной. По сути, мне нужно почистить URL в URL определенного содержания.
У меня есть родительский URL и три связанные страницы, на которых можно найти информацию о продукте, такую как отзывы, звезды и т. Д. При передаче более одного URL-адреса назначенной переменной выдается «ошибка адаптера соединения». Я также пытался просто скомпилировать или скопировать один и тот же код три раза безрезультатно.
import requests as r
from bs4 import BeautifulSoup
import csv
url1 = 'http://drd.ba.ttu.edu/isqs6339/imbadproducts/'
filepath = 'dataout.csv'
res = r.get(url1)
res.content
soup = BeautifulSoup(res.content,'lxml')
results = soup.find("a")
print(results)
print(results['href'])
results = soup.find_all("a")
for l in results:
print(l['href'])
for l in results:
print(l.text)
print(res.headers)
product_result = soup.find_all('a')
for pr in product_result:
print(pr)
search_results = soup.find('div', attrs={'id' : 'searchresults'})
product_result = search_results.find_all('a')
for pr in product_result:
print(pr)
Итак, я предоставил одну ссылку, но у меня есть три встроенных ссылки и разные теги для очистки. Мне никогда не удавалось обойти ошибку адаптера соединения.