Я пытаюсь разобрать файл SEC, который хранится в виде текста, но с XML и HTML-кодом в нем. Вот что я пробовал:
page_link = 'https://www.sec.gov/Archives/edgar/data/1396092/0001209286-18-000042.txt'
page_response = requests.get(page_link,proxies=proxyDict)
page_content = BeautifulSoup(page_response.content, "html.parser")
Когда я печатаю page_content, кажется, что это мало чем отличается от исходного файла. Интересно, что было бы лучшим способом очистить page_content
. Спасибо.