Если вы обновите страницу и воспользуетесь вкладкой сети, вы увидите альтернативный источник интересующего вас контента. Вы заметите, что он возвращает документ XBRL. Возможно, я бы подумал об использовании xpath, а не regex, для сопоставления с span
, содержащим этот текст, и получения родительского элемента div
;как это действительно представление на странице. Затем при извлечении текста проверьте, если NA
.
R:
library(rvest)
library(magrittr)
node_text <- read_html('https://www.sec.gov/Archives/edgar/data/918160/000091816018000065/form10-k2017.htm')%>%
html_node(xpath="//span[contains(text(), 'accompanying consolidated')]/parent::div")%>%
html_text()
result <- ifelse(is.na(node_text),'not found',node_text)
result
Py (bs4 4.7.1+) :
import requests
from bs4 import BeautifulSoup as bs
r = requests.get('https://www.sec.gov/Archives/edgar/data/918160/000091816018000065/form10-k2017.htm')
soup = bs(r.content,'lxml')
target = soup.select_one('div:has(span:contains("accompanying consolidated"))')
if target is None:
print('Not found')
else:
print(target.text)
Оба были проверены перед ответом.
Например (R):
py: