Я занимаюсь очисткой своих веб-страниц, и мне тяжело очищать данные и помещать их в DataFrame для последующей обработки. Мой код что-то вроде:
import requests as re
import urllib.request as ure
import time
from bs4 import BeautifulSoup as soup
import pandas as pd
myURL = "http://naturalstattrick.com/games.php"
reURL = re.get(myURL)
mySoup = soup(reURL.content, 'html.parser')
print(mySoup)
Из этого я хочу выделить дату, команды и счет - который всегда начинается с , после которого идет spacehyphenspace, за которым следует команда гостей (которая может быть 1 из 31 команд), пробел, awayTeamScore, commaspace, homeTeam, space, homeTeamScore и заканчивается .
Затем я хочу изолировать все численные данные c, которые начинаются с < td> и заканчивается на свои собственные столбцы, но, очевидно, рядом с записью игры.