Ставки Scrape / Parse с использованием Python 2.7 - PullRequest
1 голос
/ 19 марта 2012

Я пытаюсь создать процедуру с Python 2.7, которая извлекает коэффициенты ставок с разных сайтов ставок (таких как betfair, ladbrokes и т. Д.) Для статистического анализа. Я довольно плохо знаком с Python (я борюсь со всем жаргоном I.T), но я провел некоторые исследования и придумал следующую структуру.

from urllib import urlopen
import re

response = urlopen('http://beta.betfair.com/football/event?id=26821411')
html = response.read()

jay = re.compile(b'.*id="m57290-sel1_105142518-58805-0-back"><span class="price">(.*)</span></button>')

jay2 = re.findall(jay,html)

print(jay2)

Это должно было пойти на сайт Betfair, потянуть определенные шансы и распечатать его, но я ничего не получил!

Я также пытался включить Beautifulsoup, но мой Mac, похоже, не устанавливает его должным образом или что-то в этом роде. Я продолжаю получать

«ImportError: нет модуля с именем beautifulsoup»

при попытке импортировать BeautifulSoup из BeautifulSoup. Я попытался установить с помощью easyinstall, и я также запустил скрипт setup.py.
Аналогичный сценарий для скрапа.
Я провел дальнейшие исследования, и Java / javascript довольно часто появляются ...
Может кто-нибудь, пожалуйста, помогите?

заранее спасибо

Ответы [ 3 ]

1 голос
/ 19 марта 2012

Я обнаружил, что когда на моем Mac установлено несколько версий Python, сложно определить, под какой версией я хочу установить модуль. Я обхожу это с помощью virtualenv, а затем устанавливаю именно те модули, которые мне нужны, один за другим, используя pip. Вот введение в virtualenv: http://simononsoftware.com/virtualenv-tutorial/

Как правило, после установки virtualenv вы можете создать автономную среду Python, изолированную от всего остального. Процесс идет в терминальном окне следующим образом:

Создание виртуальной среды Python

$ virtualenv --python=python2.7 env

Активируйте его (так что теперь это «питон» по умолчанию в вашем PATH)

$ source env/bin/activate

Установите что-то (обратите внимание, что для этого вам не нужен «sudo», потому что это локальная установка на python в любом каталоге, в котором вы работаете)

$ pip install scrapy

Как только вы закончите со своей виртуальной средой Python, отключите ее следующим образом:

$ deactivate
0 голосов
/ 03 января 2014

Большинство сайтов ставок (особенно хороших) имеют приличный сервис XML. Я предлагаю вам проанализировать коэффициенты ставок XML вместо анализа веб-сайта. Этот урок был бы очень полезен для разбора xml для начинающих: http://docs.python.org/2/library/xml.etree.elementtree.html

0 голосов
/ 20 марта 2012

Идентификатор "back-cell" меняется каждый раз, когда страница вызывается , поэтому существующее регулярное выражение всегда будет давать сбой, независимо от того, какую среду вы используете.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...