Я пытаюсь использовать красивый суп, чтобы скрести таблицу html в pandas.
URL-адрес https://www.investing.com/equities/exxon-mobil-income-statement
Я идентифицировал таблицу в коде HTML (id = "rrtable"), но я спотыкаюсь при получении этого разбора и в pandas dataframe.
Сайт возвращал ошибку 403, поэтому мне пришлось сначала установите заголовки так, чтобы они обходили 403.
Я ожидаю увидеть фрейм данных с 5 столбцами и строками финансовых данных, но вместо этого я просто получаю необработанные заголовки и никакого содержимого. Где это идет не так?
#!/usr/local/bin/python3
import requests
from bs4 import BeautifulSoup
import pandas as pd
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
url = "https://www.investing.com/equities/exxon-mobil-income-statement"
page = requests.get(url, headers=headers)
soup = BeautifulSoup(page.content, 'html.parser')
table = soup.find_all(id="rrtable")
df = pd.DataFrame(table)
print(df)
Любая помощь будет высоко ценится!
Спасибо