Очистка данных с веб-сайта и создание чистых Pandas данных - PullRequest
0 голосов
/ 13 января 2020

Я занимаюсь очисткой своих веб-страниц, и мне тяжело очищать данные и помещать их в DataFrame для последующей обработки. Мой код что-то вроде:

import requests as re
import urllib.request as ure
import time
from bs4 import BeautifulSoup as soup
import pandas as pd

myURL = "http://naturalstattrick.com/games.php"
reURL = re.get(myURL)
mySoup = soup(reURL.content, 'html.parser')
print(mySoup)

Из этого я хочу выделить дату, команды и счет - который всегда начинается с , после которого идет spacehyphenspace, за которым следует команда гостей (которая может быть 1 из 31 команд), пробел, awayTeamScore, commaspace, homeTeam, space, homeTeamScore и заканчивается .

Затем я хочу изолировать все численные данные c, которые начинаются с < td> и заканчивается на свои собственные столбцы, но, очевидно, рядом с записью игры.

...