Как создать ссылки в python на CSV - PullRequest
0 голосов
/ 03 мая 2020

Итак, я пытаюсь отсканировать ссылки с этого сайта и экспортировать ссылки с результатами в файл csv. В результате я должен получить около 118-130 ссылок без дубликатов. Как удалить дубликаты и нежелательные результаты, начинающиеся с # и /, где он должен дать мне ~ 120 ссылок?

from bs4 import BeautifulSoup as bs
import requests
from urllib.request import urlparse, urljoin
import bs4
import csv
import re
import pandas as pd
import bs4
import requests

url = "https://www.census.gov/programs-surveys/popest.html"

data = requests.get(url)
soup = bs4.BeautifulSoup(data.text, 'html.parser')
print(soup.prettify())
for links in soup.find_all('a'):
link = links.get('href')
print(link)

if link [0:3] == "/pro": 
print("https://www.census.gov")
elif link == "#":
print("https://www.census.gov/")
with open('sarmad.csv','a') as f:
links = []
writer = csv.writer(f)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...