Я использовал BeautifulSoup, чтобы очистить веб-сайт и сохранить его в формате CSV.Когда я открываю CSV, там только заголовок, заголовок и нет данных (ссылки, которые я очистил).
Я уже пробовал "lxml", поэтому я переключился на html.parser.
from bs4 import BeautifulSoup
import requests
import csv
page = requests.get('https://www.census.gov/programs-surveys/popest.html')
raw_html = page.text # declare the raw_html var
soup = BeautifulSoup(raw_html, 'html.parser') # parse the html
T = [["US Census Bureau Links"]] #Title
I = page.text
for link in soup.find_all('a', href=True):
print(link['href'])
with open("US_Census_Bureau_links.csv","w",newline="") as f:
cw=csv.writer(f)
cw.writerows(T)
cw.writerows(I)
f.close()
Когда я запускаю его, я получаю 8 страниц, заполненных ссылками.но нет ссылок в выводе csv.