Я ищу список эвристик, учитывая HTML-документ и / или набор URL-адресов на веб-странице, который даст набор URL-адресов, которые являются предыдущими / следующими ссылками с этой страницы.Также предположим, что вам дан базовый URL.Мне не требуется знать, является ли ссылка определенно следующим или предыдущим URL, просто она является одной из этих двух.
У меня уже есть короткий список:
- Тот же домен и путь, что и у URL, но разные параметры запроса.
- base: abc.com/story
- next / previous: abc.com/story?p= 2
- base: abc.com/story.html?p=5
- следующий / предыдущий: abc.com/story.html? p = 3
- URL-адрес совпадает с базовым URL-адресом, за исключением элемента числового пути.
- base: abc.com/story
- следующий / предыдущий: abc.com/story/2
- Несколько ссылок рядом друг с другом в DOM / HTML.
- Я знаю, что это также может быть как верхний / нижний колонтитул, я должен был бы как-то объяснить это ... какие-нибудь идеи?
- Ссылки, текст которых является числом иличьим тестом являются такие слова, как «Далее», «Предыдущий», «Первый», «Последний», «Назад», «Вперед» и т. д.
Я знаю, что никогда не смогу быть идеальным в этом, но я хотел бы получить как можно больше освещения и как можно больше эвристик, чтобы надеяться на хорошее сочетание, количество и качество.Спасибо.