Question

Я пытаюсь разобрать файл SEC, который хранится в виде текста, но с XML и HTML-кодом в нем. Вот что я пробовал:

page_link = 'https://www.sec.gov/Archives/edgar/data/1396092/0001209286-18-000042.txt'
page_response = requests.get(page_link,proxies=proxyDict)
page_content = BeautifulSoup(page_response.content, "html.parser")

Когда я печатаю page_content, кажется, что это мало чем отличается от исходного файла. Интересно, что было бы лучшим способом очистить page_content. Спасибо.

Как разобрать регистрацию SEC EDGAR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как разобрать регистрацию SEC EDGAR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов