Извлечение данных из HTML таблиц (SE C EDGAR Filings) - PullRequest
0 голосов
/ 20 марта 2020

В настоящее время я работаю над своим первым python проектом (магистерская работа). Чтобы выяснить, почему компании регистрируются на IPO, но не регистрируют go, мне нужно проанализировать заявки S-1 от EDGAR. Для этого мне нужно извлечь цифры, такие как общие активы из таблиц.

Пример Google: https://www.sec.gov/Archives/edgar/data/1288776/000119312504202434/ds1a.htm html состоит из нескольких таблиц. Одна из этих таблиц показывает «Выручка», и за 2003 год мы можем найти Выручку в размере 1 465 934. (2003 год, потому что IPO было в 2004 году, поэтому я хочу взять цифры за последний проверенный год)

Проблема 1: Найти таблицы, которые отображают доход и извлечь данные (в python или Excel) Проблема 2: Если найдена правильная таблица - извлеките правильное число для выручки. Проблема 3: посмотрите в правильном месте: строка определяется ключевым словом «Доход», однако столбец должен быть правильным годом. Проблема 4. Значения либо чистые, либо в тысячах, либо в миллионах - Мне нужно знать, какие из этих модулей для сравнения данных

Для каждого намека на то, как я должен структурировать и запустить свой код. Я очень благодарен.

Что я получил так далеко:


response = urllib.request.urlopen(document_link, "rb")
page = response.read()

soup = BeautifulSoup(page, 'html.parser')
table = pd.read_html(document_link)[6]
table.to_excel ("Tables.xlsx")

print ("Done")```



...