Мне нужно извлечь большие объемы данных из множества файлов HTML, и мне придется написать отдельный скрипт для каждого типа файла HTML, чтобы правильно проанализировать данные, которые мне нужны.
Данные будут располагаться в разных частях документа - например, в документе первого типа данные, которые мне нужны, могут находиться внутри DIV с идентификатором, но для документа второго типа единственный способ найти данные, которые я может понадобиться найти определенный шаблон тегов, которые его содержат (например, <div><b>DATA</div></b>
).
Из того небольшого, что я смог найти до сих пор, кажется, что DOMXPath может помочь мне, по крайней мере, в части извлечения - какие другие функции я могу использовать, особенно во втором примере поиска произвольного шаблона тегов и получение их содержимого?