Есть ли где-нибудь основной список тегов и их значений для файлов mhtml? - PullRequest
3 голосов
/ 20 сентября 2011

Я пытаюсь читать и извлекать данные из файлов xls, которые на самом деле являются веб-страницами с одним файлом, см. Ниже

This document is a Single File Web Page, also known as a Web Archive file.  

Я пытаюсь выяснить значение всех тегов, чтобы убедиться, что я правильно их анализирую, используя lxml.

Например, вот пример тега:

 <th class=3Dtl colspan=3D1 rowspan=3D2

Пока я успешно работаю с несколькими файлами, с которыми я играю, я хочу попытаться выяснить, делаю ли я предположения, которые позже вернутся, чтобы преследовать меня. Таким образом, список этих тегов и их значение были бы великолепны.

1 Ответ

0 голосов
/ 05 февраля 2012

Если MHTML генерируется из Microsoft Word, возможно, это комбинация тегов WordprocessingML и HTML4 .

Элементы верхнего уровня в документе WordprocessingML:

SmartTagType element describes a Smart Tag type used in the document.
DocumentProperties element contains Office Document Properties.
CustomDocumentProperties element contains Custom Office Document Properties.
schemaLibrary element defines a collection of schemas that comprise a document's schema library.
fonts element (wordDocumentElt complexType) contains font information
frameset element (wordDocumentElt complexType) contains HTML Frameset definitions.
styles element (wordDocumentElt complexType) contains style definitions.
divs element contains HTML DIV information.
shapeDefaults element contains drawing defaults.
docOleData element contains supplemental data containing storages for OLE objects.
docSuppData element contains supplemental data containing toolbar customizations, envelope data, and the Microsoft Visual Basic project.
docPr element contains document options.
shapeDefaults element contains the wrapper representing the shape defaults.
bgPict element contains background picture information.
body element contains the document body.

Однако самый простой документ WordprocessingML состоит всего из пяти элементов (и одного пространства имен). Пять элементов:

wordDocument element: The root element for a WordprocessingML document.
body element: The container for the displayable text.
p element: A paragraph.
r element: A contiguous set of WordprocessingML components with a consistent set of properties.
t element: A piece of text.
...