Webscraping & Beautifulsoup - сортировка извлеченных шансов и ставки - PullRequest
0 голосов
/ 08 июня 2018

Я пытаюсь создать веб-сайт для этого сайта , это букмекерская контора matchpoint.com.Моя цель - создать таблицу, в которой я мог бы видеть шансы, не посещая их сайт.

Мой код печатает шансы и текст ставки.Но он не сортирует шансы, поэтому соответствует тексту ставки.Я приложил картинку ниже, где вы можете увидеть страницу, которую я очищаю.Для первого текста ставки есть три коэффициента, а для другого - два коэффициента, прикрепленных к тексту.Я потратил 3 дня на поиск через stackoverflow, и я не смог двигаться дальше.

Вход:

"""
Soccer match results scraping object.
"""
from bs4 import BeautifulSoup
import requests

class scraper():

    def __init__(self):

        print('__init__ called')

    def parsedata(self):

        self.url = "https://www.cashpoint.dk/en/?r=bets/xtra&group=461392&game=312004790"
        self.res = requests.get(self.url)                                    
        self.soup = BeautifulSoup(self.res.text, "lxml")                     
        self.table = self.soup.find_all("table", class_="sportbet_extra_list_table")

        for self.items in self.table:

            self.odds = self.items.find("div", class_="sportbet_content_rate_right").get_text().strip()
            print(self.odds) 

            self.text = self.items.find("td", class_="sportbet_extra_c1").get_text().strip()
            print(self.text) 

Scrape = scraper()
Scrape.parsedata()

Выход:

__init__ called
1,38
Hvem vinder kampen?
1,09
Dobbeltchance
1,12
Head to Head (penge tilbage ved uafgjort)
2,17
Handicap 0:1
4,25
Handicap 0:2
8,60

etc

Сайт

Ответы [ 2 ]

0 голосов
/ 11 июня 2018
"""
Soccer match results scraping object.
"""
from bs4 import BeautifulSoup
import requests
import csv
import pandas as pd 

url = "https://www.cashpoint.dk/da/?r=bets/xtra&group=467265&game=312021291"


class scraper():

    def __init__(self):
        print('__init__ called')

        self.gamesList = []

    def Cashpoint(self, url):

        self.r = requests.get(url)
        self.soup = BeautifulSoup(self.r.text, "lxml")

        self.content = self.soup.find_all("div", class_="sportbet_extra_content")

        for self.getTable in self.content:
            self.oneTable = self.getTable.find_all("table", class_="sportbet_extra_list_table")

        self.btextCount = len(self.oneTable)  # Amount of tables

        with open('names.csv', 'w', encoding='utf-8', newline='\n') as csvfile:
            writer = csv.writer(csvfile)
            headers = ['btext']
            writer.writerow(headers)

            for x in range(self.btextCount):  # Bettext count.

                # One Bettext, three odds per loop.

                # Bettext
                self.rawText = self.oneTable[x].find_all("td", class_="sportbet_extra_c1")

                for self.getText in self.rawText:
                    self.getme = self.getText.get_text().strip().split('  ')[0]
                    self.txtList = [self.getme]
                    print(self.txtList)

                # Odds
                self.oddsTable = self.oneTable[x].find_all("div", class_="sportbet_content_rate_right")
                for self.oddsRaw in self.oddsTable:
                    self.odds = self.oddsRaw.get_text().strip()
                    self.newodds = [self.odds]
                    print(self.newodds)


        d = {'Bettext': [2, 52123321], 'Odds': [3, 4]}
        df = pd.DataFrame(data=d)
        print(df)


                    # print(self.gamesList)


            # csvfile.close()
            # print("CSVFILE CLOSED")


scrape = scraper()
scrape.Cashpoint(url)
0 голосов
/ 08 июня 2018

Вы должны попытаться использовать find_all, чтобы извлечь все шансы вместо find.

all_odds = self.items.find_all("div", class_="sportbet_content_rate_right").get_text().strip()
self.odds = [x.get_text().strip() for x in all_odds]
print(self.odds)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...