Я новичок в сканировании веб-страниц, и мне нужна помощь в получении значений из таблицы. У меня есть все обязательные поля (МЕСТО, ДАТА, СВОДКА, СРОК). Я хочу, чтобы в сводке был URL-адрес другой страницы. Я хочу, чтобы этот URL-адрес был добавлен вместе с другими полями, такими как (LOCATION, DATE, SUMMARY, DEADLINE, URL )
Это веб-сайт
Пока это мой код. Но не работает
import requests as rq
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://www.tendersinfo.com/global-information-technology-tenders-{}.php'
amount_of_pages = 2 #5194
rows = []
for i in range(1,amount_of_pages):
response = rq.get(url.format(i))
if response.status_code == 200:
soup = BeautifulSoup(response.text,'html.parser')
table = soup.find('table',{'id':'datatable'})
headers = []
for th in table.find("tr").find_all("th"):
headers.append(th.text.strip())
for tr in table.find_all("tr")[1:]:
cells = []
tds = tr.find_all("td")
if len(tds) == 0:
ths = tr.find_all("th")
for th in ths:
cells.append(th.text.strip())
else:
for td in tds:
cells.append(td.text.strip())
cells.append('https://www.tendersinfo.com/' + td.find('a')['href'])
rows.append(cells)