Я ищу способ извлечь меню, используемое для навигации, из веб-страницы, заполненной ссылками (и, вероятно, текстом). Страницы, которые меня интересуют, довольно простые, действительные XHTML, и можно с уверенностью предположить, что меню находится где-то в начале или конце страницы. Но хороший, общий метод, чтобы найти, где именно он до сих пор, ускользнул от меня - и я надеюсь, что вы сможете мне помочь с этим.
Небольшое примечание: я не ищу что-то вроде читабельности - чтобы найти основную статью и убрать все остальное, но что-то, чтобы специально найти меню.
Также наивный метод «найти элемент, который имеет много ссылок в качестве преемников» не работает очень хорошо - поскольку на страницах, как правило, я имею довольно длинные списки ссылок.
РЕДАКТИРОВАТЬ: мне нужно меню, чтобы получить содержание страниц, связанных с ним (я строю своего рода веб-скребок для проекта извлечения информации).
Некоторые примеры страниц, с которыми я работаю: