Да, я согласен, что Beautiful Soup - хороший подход.Вот некоторый код Python, который использует библиотеку Beautiful Soup для извлечения внутридневной цены со страницы фонда IVV:
import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.marketwatch.com/investing/fund/ivv")
html = r.text
soup = BeautifulSoup(html, "html.parser")
if soup.h1.string == "Pardon Our Interruption...":
print("They detected we are a bot. We hit a captcha.")
else:
price = soup.find("h3", class_="intraday__price").find("bg-quote").string
print(price)
Тот факт, что цена часто меняется, не является проблемой.Имена и классы тегов HTML останутся неизменными.И это все, что вам нужно для того, чтобы Beautiful Soup работал.
Ваша основная задача состоит в том, чтобы веб-сайт мог обнаружить, что вы не используете интернет-браузер, и отобразит капчу в вашем скрипте Python.Так что вам нужно будет найти способ обойти это.Кроме того, я рекомендую проверить законность очистки и нарушает ли она условия их использования.
Подробнее о Beautiful Soup вы можете узнать здесь:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/