Заявки компании SEC:допустимый тег SGML? Если да, то как его разобрать? - PullRequest
1 голос
/ 02 ноября 2019

Я попытался разобрать заявки компании SEC с sec.gov. Начиная с fb 10-Q index.htm давайте посмотрим на полную подачу текстовых заявок, например полную подачу текстовых заявок . Он имеет такую ​​структуру, как:

<SEC-DOCUMENT>
<SEC-HEADER>
<ACCEPTANCE-DATETIME>"some content" This tag is not closed.

"some lines resembling yaml markup" 
These are indented lines with a 
"key": "value" structure.

</SEC-HEADER>
<DOCUMENT>
.
.
some content
.
.

</DOCUMENT>

"several DOCUMENT tags" ...


</SEC-DOCUMENT>

Я попытался выяснить структуру тега <SEC-HEADER> и нашел некоторую информацию в Технической спецификации Public Disseribution Service (PDS) (pdf) и пришел к выводу, что содержимое заголовка должно быть SGML.

Тем не менее я не разбираюсь в форматировании, поскольку угловых скобок нет, а пары ключ-значение разделяются двоеточиями, такими как key: value вместо<key>value</key>. В pdf-ссылке я не смог найти ничего о двоеточиях.

Вопрос: является ли тег <SEC-HEADER> допустимым SGML? Если да, то как его разобрать?

Буду рад любой помощи.

...