Мне нужно проанализировать серию веб-страниц, чтобы импортировать данные в приложение. Каждый тип веб-страницы предоставляет один и тот же тип данных. Проблема в том, что HTML-код каждой страницы отличается, поэтому расположение данных различается. Другая проблема заключается в том, что HTML-код плохо отформатирован, что делает невозможным использование XML-подобного парсера.
Пока что лучшая стратегия, которую я могу придумать, - это определить шаблон для каждого типа страниц, например:
Шаблон A:
<html>
...
<tr><td>Table column that is missing a td
<td> Another table column</td></tr>
<tr><td>$data_item_1$</td>
...
</html>
Шаблон B:
<html>
...
<ul><li>Yet another poorly formatted page <li>$data_item_1$</td></tr>
...
</html>
Таким образом, мне понадобится только один парсер для всех страниц, который будет сравнивать каждую страницу с ее шаблоном и получать $data_item_1$
, $data_item_2$
и т. Д. Тем не менее, это будет много работы. Можете ли вы придумать какое-нибудь более простое решение? Любая библиотека, которая может помочь?
Спасибо