Я просмотрел несколько сайтов, которые содержат таблицы, большинство из которых работают со следующим кодом, если сама таблица ах является именем класса. (идея состоит в том, чтобы очистить данные и поместить их в CSV-файл)
import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
import urllib
url = ("https://en.wikipedia.org/wiki/Comparison_of_text_editors")
req = urllib.request.Request(url, headers={'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'})
html = urllib.request.urlopen(req)
bsObj = BeautifulSoup(html, "lxml")
table = bsObj.find_all("table", {"class": "wikitable"})[0]
rows = table.find_all("tr")
csv_file = open("proxies2.csv", 'a', newline='')
writer = csv.writer(csv_file)
try:
for rows in rows:
csvRow = []
for cell in rows.find_all(["td", "th"]):
csvRow.append(cell.get_text())
writer.writerow(csvRow)
finally:
csv_file.close()
Когда я пользовался сайтом ( ссылка ); первый столбец возвращает больше информации, чем я хочу, это, вероятно, связано с тем, что первый столбец имеет гиперссылку. Любая помощь по этому вопросу будет по достоинству оценен:)