Ниже приведен код для очистки этой веб-страницы . Из всех URL-адресов на странице мне нужны только те, которые содержат дополнительную информацию о вакансиях, например, URL-адреса таких компаний, как - «Abbot», «Abbv ie», «Affymetrix» и т. Д. .
import requests
import pandas as pd
import re
from lxml import html
from bs4 import BeautifulSoup
from selenium import webdriver
list = ['#medical-device','#engineering','#recruitment','#job','#linkedin']
page = "https://dpseng.com.sg/definitive-singapore-pharma-job-website-directory/"
list_of_pages = [page + x for x in list]
for info in list_of_pages:
pages= requests.get(info)
soup = BeautifulSoup(pages.content, 'html.parser')
tags = [div.p for div in soup.find_all('div', attrs ={'class':'fusion-text'})]
for m in tags:
try:
links = [link['href'] for link in tags]
except KeyError:
pass
print(links)
Вывод, который я получаю, представляет собой пустой список, как показано ниже:
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
Что я должен добавить / отредактировать в приведенном выше коде, чтобы очистить URL-адреса и дополнительную информацию в этих URL.
Спасибо !!