Есть ли кто-нибудь, кто пытался извлечь индивидуальные факторы риска из раздела «Факторы риска», т. Е. Пункта 1A из документов EDGAR 10-K компании, используя BeautifulSoup или любую другую библиотеку для парсинга веб-страниц вместе с регулярными выражениями.
Было бы очень полезно, если бы вы могли предоставить github или псевдокод или хотя бы какой-то старт, чтобы я мог двигаться вперед.
EDIT: некоторые примеры 10-Ks
Я привел более одного примера, потому что код HTML во всех из них настолько случайен, что использовать один тип RegEx сложно.