Как уже упоминалось в комментариях, нет особой разницы между «HTML5» HTML-страницей и «более старой» HTML-страницей.Это все HTML.Большая часть HTML5 в качестве стандарта заключается в том, чтобы задокументировать, как браузеры уже обрабатывают HTML, а не указывать новый материал (кроме тегов с разными именами и JavaScript API).
Если страница использует тип документа HTML5<!DOCTYPE html>
), это довольно хороший признак того, что автор задумал использовать HTML5.Но, как уже упоминалось в комментариях, вам просто нужен приличный анализатор HTML - он будет поглощать более старые HTML и HTML5, потому что они фактически одно и то же с точки зрения синтаксического анализа.
Я оченьнебольшой опыт работы с парсерами HTML, но, как предложил Робертк в своем комментарии, вы можете попробовать http://about.validator.nu/htmlparser/.