Факторы риска парсинга от 10-K EDGAR - PullRequest
1 голос
/ 17 июня 2020

Есть ли кто-нибудь, кто пытался извлечь индивидуальные факторы риска из раздела «Факторы риска», т. Е. Пункта 1A из документов EDGAR 10-K компании, используя BeautifulSoup или любую другую библиотеку для парсинга веб-страниц вместе с регулярными выражениями.

Было бы очень полезно, если бы вы могли предоставить github или псевдокод или хотя бы какой-то старт, чтобы я мог двигаться вперед.

EDIT: некоторые примеры 10-Ks

  1. https://www.sec.gov/Archives/edgar/data/1350653/000156459018005156/atec-10k_20171231.htm
  2. https://www.sec.gov/Archives/edgar/data/1591890/000149315218003887/form10-k.htm
  3. https://www.sec.gov/Archives/edgar/data/750574/000119312518080325/d472492d10k.htm
  4. https://www.sec.gov/Archives/edgar/data/773840/000093041318000292/c89913_10k.htm
  5. https://www.sec.gov/Archives/edgar/data/12927/000001292718000007/a201712dec3110k.htm

Я привел более одного примера, потому что код HTML во всех из них настолько случайен, что использовать один тип RegEx сложно.

...