BeautifulSoup: анализ таблицы HTML, если она содержит ключевое слово - PullRequest
0 голосов
/ 10 октября 2018

У меня есть этот html-файл: https://www.sec.gov/Archives/edgar/data/706688/000119312512154452/d292519ddef14a.htm

И еще около тысячи таких, поданных разными фирмами, использующими разные html-форматы.

Меня интересует одна таблица ввесь этот документ, таблица бенефициаров.Я хочу разобрать это с помощью BeautifulSoup.

Я могу разобрать все таблицы в документе, но не ту, которая мне нужна.Если бы у меня был список ключевых слов, таких как «Выгодные», «Владельцы», «Владение» и т. Д., Как бы я извлек только те таблицы, которые содержат любое из слов в списке?

1 Ответ

0 голосов
/ 11 октября 2018

Вы можете сделать что-то вроде этого, а затем оператор if для сравнения с ключевыми словами!

import requests
from bs4 import BeautifulSoup

req = requests.get('https://www.sec.gov/Archives/edgar/data/'
    '706688/000119312512154452/d292519ddef14a.htm')
soup = BeautifulSoup(req.content, 'html.parser')
tables = soup.find_all('table')
table = tables[3]#find 4th table from the webpage
print(table.text)
...