Итак, я написал этот код для очистки данных с веб-сайта.
import requests
from bs4 import BeautifulSoup
import re
page = requests.get('https://sofifa.com/shortlist/32931')
soup = BeautifulSoup(page.text, 'html.parser')
dados = soup.find_all('a', href=re.compile("/player/"))
capa = soup.find('article')
capa1 = capa.find('div' , {'class': 'card card-border mb-2 fixed-width'})
time = capa1.find('div' , {'class': 'card-title h5'}).string
records = []
for nomes in dados:
nome = nomes.string
records.append((nome))
import pandas as pd
from openpyxl import load_workbook
book = load_workbook('Tabela Pipoco 2019.xlsx')
writer = pd.ExcelWriter('Tabela Pipoco 2019.xlsx', engine='openpyxl')
writer.book = book
writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
df = pd.DataFrame(records, columns=[time])
df.to_excel(writer, "Times", index=False, encoding='utf-8', startcol=0)
writer.save()
Дело в том, что я хотел бы сделать это с 10 различными страницами!Из-за недостатка знаний я написал 10 разных кодов на ноутбуке jupyter и запустил их все.
единственное, что меняется в кодах, как эти две строки:
page = requests.get('https://sofifa.com/shortlist/32931')
и
df.to_excel(writer, "Times", index=False, encoding='utf-8', startcol=0)
Итак, в первой строке мы заменим конечный номер конкретными номерами (32931, 32882, 32589) и т. Д.
Во второй строке то, что изменяетсяstartcol=
, это будет (0 для первой страницы, 3 для второй, 6 для третьей и т. Д.)
Как мне поставить thins на один код?
Спасибо, ребята