Я попытался разобрать заявки компании SEC с sec.gov
. Начиная с fb 10-Q index.htm давайте посмотрим на полную подачу текстовых заявок, например полную подачу текстовых заявок . Он имеет такую структуру, как:
<SEC-DOCUMENT>
<SEC-HEADER>
<ACCEPTANCE-DATETIME>"some content" This tag is not closed.
"some lines resembling yaml markup"
These are indented lines with a
"key": "value" structure.
</SEC-HEADER>
<DOCUMENT>
.
.
some content
.
.
</DOCUMENT>
"several DOCUMENT tags" ...
</SEC-DOCUMENT>
Я попытался выяснить структуру тега <SEC-HEADER>
и нашел некоторую информацию в Технической спецификации Public Disseribution Service (PDS) (pdf) и пришел к выводу, что содержимое заголовка должно быть SGML.
Тем не менее я не разбираюсь в форматировании, поскольку угловых скобок нет, а пары ключ-значение разделяются двоеточиями, такими как key: value
вместо<key>value</key>
. В pdf-ссылке я не смог найти ничего о двоеточиях.
Вопрос: является ли тег <SEC-HEADER>
допустимым SGML? Если да, то как его разобрать?
Буду рад любой помощи.