Python - Ежедневная очистка данных ETFs - PullRequest
0 голосов
/ 25 октября 2018

Я пытаюсь найти в сети некоторую ежедневную информацию о различных ETF.Я обнаружил, что https://www.marketwatch.com/ имеет точную информацию.Наиболее релевантная информация - это открытая цена, размещенные акции, NAV, суммарные активы ETF.Вот ссылка на IVV US Equity: https://www.marketwatch.com/investing/fund/ivv

Я только начинаю получать опыт работы с Python, хотел бы получить некоторые советы и рекомендации о том, как запустить программу очистки веб-страниц.Мне сказали, что BeutifulSoup - это пакет, который нужно использовать для очистки веб-страниц.

Раньше я просматривал веб-страницы с VBA, но HTML-код страниц, которые я использовал, отличается, я не знаю, так ли это, потому что некоторые значенияиз ETF (таких как цена и Taded Volume) постоянно меняются.

Я открыт для любого предложения или любого другого веб-сайта, который может быть полезен (я пробовал с Yahoo Finance и Morningstar, и у меня та же проблема с кодом HTML).

1 Ответ

0 голосов
/ 25 октября 2018

Да, я согласен, что Beautiful Soup - хороший подход.Вот некоторый код Python, который использует библиотеку Beautiful Soup для извлечения внутридневной цены со страницы фонда IVV:

import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.marketwatch.com/investing/fund/ivv")
html = r.text

soup = BeautifulSoup(html, "html.parser")

if soup.h1.string == "Pardon Our Interruption...":
    print("They detected we are a bot. We hit a captcha.")
else:
    price = soup.find("h3", class_="intraday__price").find("bg-quote").string
    print(price)

Тот факт, что цена часто меняется, не является проблемой.Имена и классы тегов HTML останутся неизменными.И это все, что вам нужно для того, чтобы Beautiful Soup работал.

Ваша основная задача состоит в том, чтобы веб-сайт мог обнаружить, что вы не используете интернет-браузер, и отобразит капчу в вашем скрипте Python.Так что вам нужно будет найти способ обойти это.Кроме того, я рекомендую проверить законность очистки и нарушает ли она условия их использования.

Подробнее о Beautiful Soup вы можете узнать здесь:

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

...