регулярное выражение python для извлечения параграфов из документа отчета о доходах html? - PullRequest
0 голосов
/ 15 октября 2019

как вы можете извлечь абзацы с такой страницы? https://www.sec.gov/Archives/edgar/data/81318/000165495416004006/yuma_10q.htm

я попытался получить текст:

from bs4 import BeautifulSoup
import re, requests
link='https://www.sec.gov/Archives/edgar/data/81318/000165495416004006/yuma_10q.htm'
html=BeautifulSoup(requests.get(link).content,'html.parser')
text = ' '.join([s for s in html.strings if s.parent.name not in ('style', 'script', 'head', 'title', 'meta', '[document]')])
print(text)

однако он очень запутанный, и некоторые различные параграфы были объединены без каких-либо последовательных шаблонов в том, как они должны быть разделены,Есть ли более чистое решение для организованного извлечения текста из него?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...