Очистка таблиц данных с запросами Python - PullRequest
0 голосов
/ 25 августа 2018

Я просмотрел несколько сайтов, которые содержат таблицы, большинство из которых работают со следующим кодом, если сама таблица ах является именем класса. (идея состоит в том, чтобы очистить данные и поместить их в CSV-файл)

import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
import urllib

url = ("https://en.wikipedia.org/wiki/Comparison_of_text_editors")
req = urllib.request.Request(url, headers={'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'})
html = urllib.request.urlopen(req)

bsObj = BeautifulSoup(html, "lxml")
table = bsObj.find_all("table", {"class": "wikitable"})[0]
rows = table.find_all("tr")
csv_file = open("proxies2.csv", 'a', newline='')
writer = csv.writer(csv_file)
try:
    for rows in rows:
        csvRow = []
        for cell in rows.find_all(["td", "th"]):
            csvRow.append(cell.get_text())
        writer.writerow(csvRow)
finally:
    csv_file.close()

Когда я пользовался сайтом ( ссылка ); первый столбец возвращает больше информации, чем я хочу, это, вероятно, связано с тем, что первый столбец имеет гиперссылку. Любая помощь по этому вопросу будет по достоинству оценен:)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...