В эпоху доткомов я написал скребок, чтобы высосать информацию с нескольких сайтов электронной коммерции. Я использовал Perl и для каждого сайта было два уровня кода. Уровень «обнаруживает» будет анализировать и находить списки элементов, а уровень «обрабатывать» будет считывать страницы продукта и отдельные поля данных и передавать их в базу данных.
Судя по тому, что вы хотите сделать, я думаю, что использование вашего собственного решения, вероятно, лучший подход, поскольку он не очень сложный. Используйте Perl или аналогичный интерпретируемый язык с хорошей обработкой строк и поддержкой регулярных выражений.
Разделение страниц действительно легко. Забудьте о деревьях разбора (я пошел по этому пути и разочаровался в этом), гораздо проще и проще вручную определить сгустки текста шаблона, граничащие с каждой частью информации, которую вы хотите, и поместить это в регулярное выражение для извлечения данных.
Поместите их в список, хэш, что угодно, а затем делайте с ним что хотите.