Как разобрать регистрацию SEC EDGAR - PullRequest
0 голосов
/ 15 октября 2019

Я пытаюсь разобрать файл SEC, который хранится в виде текста, но с XML и HTML-кодом в нем. Вот что я пробовал:

page_link = 'https://www.sec.gov/Archives/edgar/data/1396092/0001209286-18-000042.txt'
page_response = requests.get(page_link,proxies=proxyDict)
page_content = BeautifulSoup(page_response.content, "html.parser")

Когда я печатаю page_content, кажется, что это мало чем отличается от исходного файла. Интересно, что было бы лучшим способом очистить page_content. Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...