Разбор SE C табличных данных - PullRequest
0 голосов
/ 03 марта 2020

Мое требование - анализ табличных данных SE C. Пожалуйста, найдите образец табличных данных на изображении ниже. enter image description here Я использую Python для этого. Я обнаружил, что табличные данные хранятся в формате XBRL. Вначале я пытался проанализировать данные XBRL так, как мы анализируем XML с помощью модуля l xml. Позже я понял, что это сложная модель для анализа, и у нас есть много библиотек для анализа документа XBRL. Я просмотрел различные библиотеки, такие как python -xbrl, xbrl и установленные серверы (сервер raptorXMLXBRL) для анализа документов XBRL. Но никто не работал, как ожидалось. Как я упоминал ранее, моя цель - получить табличные данные из SE C. Мы можем найти образцы документов в этой ссылке. Можете ли вы предложить мне процесс / модуль для анализа табличных данных. Заранее спасибо.

1 Ответ

1 голос
/ 03 марта 2020

Как и вы, я пытался выполнить синтаксический анализ документов xbrl, используя любые инструменты, доступные в python - без особого успеха. Таким образом, один из способов обойти эту проблему - перейти к подаче html, лежащей в основе подачи xbrl.

Итак, чтобы использовать примерную ссылку, URL-адрес первых 10К есть

https://www.sec.gov/ix?doc=/Archives/edgar/data/1551152/000155115220000007/abbv-20191231x10k.htm

Просто удалите строку /ix?doc= из ссылки, и у вас останется

https://www.sec.gov/Archives/edgar/data/1551152/000155115220000007/abbv-20191231x10k.htm

, то есть та же самая заявка 10k, но в формате html. Оттуда вы можете просто использовать ваши обычные html инструменты для извлечения любых данных, которые вас интересуют.

...