Формат вывода из BeautifulSoup - PullRequest
1 голос
/ 28 марта 2019

После прочтения документации BeautifulSoup мне удалось написать короткий скрипт на python, чтобы очистить таблицу и напечатать ее, однако я не могу понять, как отформатировать ее в таблицу. Конечная цель - получить прогнозы футбольных игр с веб-сайта: https://afootballreport.com/predictions/over-1.5-goals/ и сохранить их в текстовом файле.

Вот код, который я написал до сих пор:

import urllib
import urllib.request
from bs4 import BeautifulSoup

def make_soup(url):
    thepage = urllib.request.urlopen(url)
    soupdata = BeautifulSoup(thepage, "html.parser")
    return soupdata

soup = make_soup("https://afootballreport.com/predictions/over-1.5-goals/")
for record in soup.findAll('tr'):

    for data in record.findAll('td'):

     print(data.text.strip())

и это вывод:

03/28
17:30
Iceland Reykjavik Youth Cup


Fjölnir / Vængir U19
Valur / KH U19
Over 1.5
Valur / KH U19 have over 1.5 goals in 100% of their games in the last 2 months (total games 6).
03/28
17:30
Saudi Arabia Pro League


Al Ittifaq
Al Quadisiya
Over 1.5
Al Ittifaq have over 1.5 goals in 100% of their games in the last 2 months (total games 8).

Я хочу, чтобы он имел столбец для каждой строки: дата, время, футбольная лига, домашняя команда, AwayTeam, совет, описание. Как это:

Date, Time, Football League, HomeTeam, AwayTeam, Tip, Description
03/28, 17:30, Iceland Reykjavik Youth Cup, Fjölnir / Vængir U19, Valur / KH U19, Over 1.5, Valur / KH U19 have over 1.5 goals in 100% of their games in the last 2 months (total games 6).

Может ли кто-нибудь помочь мне, пожалуйста?

1 Ответ

1 голос
/ 28 марта 2019

Вы делаете очень много работы.Всякий раз, когда я вижу тег <table>, я сначала пробую панд '.read_html().Это сделает большую часть работы за вас, и тогда вы сможете просто манипулировать кадром данных по мере необходимости.

import pandas as pd

tables = pd.read_html('https://afootballreport.com/predictions/over-1.5-goals/')
table = tables[0]

table[['Date', 'Time']] = table['Home team - Away team'].str.split('  ', expand=True)
table = table.drop(['Home team - Away team'],axis=1)
table =  table.rename(columns={"Unnamed: 3":"Description"})   


table[['Football League', 'Home Team', 'Away Team']] = table['Tip'].str.split('  ', expand=True)
table = table.drop(['Tip'],axis=1)

Вывод:

print (table.head(5).to_string())
      Logic                                        Description   Date   Time              Football League             Home Team       Away Team
0  Over 1.5  Valur / KH U19 have over 1.5 goals in 100% of ...  03/28  17:30  Iceland Reykjavik Youth Cup  Fjölnir / Vængir U19  Valur / KH U19
1  Over 1.5  Al Ittifaq have over 1.5 goals in 100% of thei...  03/28  17:30      Saudi Arabia Pro League            Al Ittifaq    Al Quadisiya
2  Over 1.5  Sarreguemines have over 1.5 goals in 100% of t...  03/28  19:00            France National 3         Sarreguemines   Strasbourg II
3  Over 1.5  Mons Calpe have over 1.5 goals in 100% of thei...  03/28  19:29   Gibraltar Premier Division            Mons Calpe   Glacis United
4  Over 1.5  Glacis United have over 1.5 goals in 100% of t...  03/28  19:29   Gibraltar Premier Division            Mons Calpe   Glacis United

РЕДАКТИРОВАТЬ:

Если вы используете Pandas Версия 0.24.2

import pandas as pd

tables = pd.read_html('https://afootballreport.com/predictions/over-1.5-goals/')
table = tables[0]

table[['Date', 'Time']] = table['Home team - Away team'].str.split('  ', expand=True)
table = table.drop(['Home team - Away team'],axis=1)
table =  table.rename(columns={"Logic":"Description"})   


table[['Football League', 'Home Team', 'Away Team']] = table['Home team - Away team.1'].str.split('  ', expand=True)
table = table.drop(['Home team - Away team.1'],axis=1)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...