Я использую красивый суп, чтобы попытаться собрать некоторую финансовую информацию с нескольких разных сайтов, но я замечаю, что большая часть информации html отсутствует в том, что я очищаю.Я попытался html.parser
, lxml
и html5lib
при анализе извлеченной информации без удачи.
Ниже приведен пример кода, который я использовал на двух разных сайтах, которые я пробовал.В обоих примерах я пытаюсь получить информацию о рыночной капитализации, но мне кажется, что я никогда не получаю ее в своем разобранном виде.
#!/usr/bin/env python
def get_marketcap(security):
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen
loc = 'https://stockrow.com/AAPL'
loc = 'https://www.wolframalpha.com/input/?i=GOOGL+historical+market+capitalization+1.7.2018-1.10.2018'
page = urlopen(loc)
#soup = bs(page, 'html.parser')
#soup = bs(page, 'lxml')
soup = bs(page, 'html5lib')
return soup, name_box
soup,name_box = get_marketcap('AAPL')