как определить (используя код Java), является ли веб-страница HTML5 (или более старая версия HTML) - PullRequest
3 голосов
/ 20 июня 2011

Я хочу определить версию HTML веб-страницы.Как это сделать в Java-приложении Google App Engine?(Или даже настольное Java-приложение?)

1 Ответ

6 голосов
/ 20 июня 2011

Как уже упоминалось в комментариях, нет особой разницы между «HTML5» HTML-страницей и «более старой» HTML-страницей.Это все HTML.Большая часть HTML5 в качестве стандарта заключается в том, чтобы задокументировать, как браузеры уже обрабатывают HTML, а не указывать новый материал (кроме тегов с разными именами и JavaScript API).

Если страница использует тип документа HTML5<!DOCTYPE html>), это довольно хороший признак того, что автор задумал использовать HTML5.Но, как уже упоминалось в комментариях, вам просто нужен приличный анализатор HTML - он будет поглощать более старые HTML и HTML5, потому что они фактически одно и то же с точки зрения синтаксического анализа.

Я оченьнебольшой опыт работы с парсерами HTML, но, как предложил Робертк в своем комментарии, вы можете попробовать http://about.validator.nu/htmlparser/.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...