scrap.py
# code to scrap the links from the html
from bs4 import BeautifulSoup
import urllib.request
data = open('scrapFile','r')
html = data.read()
data.close()
soup = BeautifulSoup(html,features="html.parser")
# code to extract links
links = []
for div in soup.find_all('div', {'class':'main-bar z-depth-1'}):
# print(div.a.get('href'))
links.append('https://godamwale.com' + str(div.a.get('href')))
print(links)
file = open("links.txt", "w")
for link in links:
file.write(link + '\n')
print(link)
Я успешно получил список ссылок, используя этот код. Но когда я хочу удалить данные из этих ссылок с их html-страницы, у них нет исходного кода, который содержит данные, и извлечь их из этого - моя трудная задача. Я использовал селен драйвер, но он не будет работать для меня.
Я хочу удалить данные из ссылки ниже, которая содержит данные в разделах html, которые содержат информацию о клиенте, лицензию и автоматизацию, коммерческую информацию, поэтажный, операционные данные. Я хочу извлечь эти данные с именем, местонахождением, контактным номером и типом.
https://godamwale.com/list/result/591359c0d6b269eecc1d8933
это ссылка здесь. Если кто-то найдет решение, пожалуйста, дайте его мне.