Как разобрать XHTML из JAXB? - PullRequest
       61

Как разобрать XHTML из JAXB?

0 голосов
/ 18 января 2019

Для беспорядочных html, преобразованных в xhtml с помощью тегового супа, все ли разумно построить xsd из trang для демаршаллинга и последующего анализа?

thufir@dur:~/xml/xhtml$ 
thufir@dur:~/xml/xhtml$ trang output.xhtml output.xsd
fatal: unrecognized input type "xhtml"
thufir@dur:~/xml/xhtml$ 
thufir@dur:~/xml/xhtml$ mv output.xhtml output.xml
thufir@dur:~/xml/xhtml$ 
thufir@dur:~/xml/xhtml$ trang output.xml output.xsd
thufir@dur:~/xml/xhtml$ 
thufir@dur:~/xml/xhtml$ xjc output.xsd 
parsing a schema...
compiling a schema...
org/w3/_1999/xhtml/A.java
org/w3/_1999/xhtml/Article.java
org/w3/_1999/xhtml/Aside.java
org/w3/_1999/xhtml/Body.java
org/w3/_1999/xhtml/Button.java
org/w3/_1999/xhtml/Div.java
org/w3/_1999/xhtml/Footer.java
org/w3/_1999/xhtml/Form.java
org/w3/_1999/xhtml/H3.java
org/w3/_1999/xhtml/Head.java
org/w3/_1999/xhtml/Header.java
org/w3/_1999/xhtml/Html.java
org/w3/_1999/xhtml/I.java
org/w3/_1999/xhtml/Img.java
org/w3/_1999/xhtml/Li.java
org/w3/_1999/xhtml/Link.java
org/w3/_1999/xhtml/Meta.java
org/w3/_1999/xhtml/ObjectFactory.java
org/w3/_1999/xhtml/Ol.java
org/w3/_1999/xhtml/P.java
org/w3/_1999/xhtml/Script.java
org/w3/_1999/xhtml/Section.java
org/w3/_1999/xhtml/Ul.java
org/w3/_1999/xhtml/package-info.java
thufir@dur:~/xml/xhtml$ 

Глядя для извлечения данных из html; html статичен и только что загружен из файла. Это ненормальный подход?

...