Я пытался очистить определенную страницу в течение нескольких дней, но безрезультатно.Я нуб как в чистке, так и в Python.
Я действительно ищу последнюю, большую таблицу страницы, но нет идентификаторов, на которые можно было бы положиться, поэтому я попытался очистить все таблицы.
Я придумал этот код:
import requests
import urllib.request
from bs4 import BeautifulSoup
url = "https://www.freecell.net/f/c/personal.html?uname=Giampaolo44&submit=Go"
r = requests.get(url)
r.raise_for_status()
html_content = r.text
soup = BeautifulSoup(html_content,"html.parser")
tables = soup.findAll("table")
for table in tables:
row_data = []
for row in table.find_all('tr'):
cols = row.find_all('td')
cols = [ele.text.strip() for ele in cols]
row_data.append(cols)
print(row_data)
С учетом вышесказанного я получаю огромный набор мусора в выводе на печать (*), который был моим стандартным выводом в течение двух дней.
(*), т.е.:
['12/155:27\xa0pm8x4\xa05309-6Streak4:07Won12/155:23\xa0pm8x4\xa013396-6Streak2:49Won', '5:27\xa0pm8x4\xa05309-6Streak4:07Won12/155:23\xa0pm8x4\xa013396-6Streak2:49Won', '8x4\xa05309-6Streak4:07Won12/155:23\xa0pm8x4\xa013396-6Streak2:49Won', 'Streak4:07Won12/155:23\xa0pm8x4\xa013396-6Streak2:49Won', '4:07Won12/155:23\xa0pm8x4\xa013396-6Streak2:49Won', 'Won12/155:23\xa0pm8x4\xa013396-6Streak2:49Won', '12/155:23\xa0pm8x4\xa013396-6Streak2:49Won', '5:23\xa0pm8x4\xa013396-6Streak2:49Won', '8x4\xa013396-6Streak2:49Won', 'Streak2:49Won', '2:49Won', 'Won'], ['12/155:23\xa0pm8x4\xa013396-6Streak2:49Won', '5:23\xa0pm8x4\xa013396-6Streak2:49Won', '8x4\xa013396-6Streak2:49Won', 'Streak2:49Won', '2:49Won', 'Won']]