Предыдущая / Следующая Ссылки на веб-страницу Эвристика? - PullRequest
1 голос
/ 15 июля 2010

Я ищу список эвристик, учитывая HTML-документ и / или набор URL-адресов на веб-странице, который даст набор URL-адресов, которые являются предыдущими / следующими ссылками с этой страницы.Также предположим, что вам дан базовый URL.Мне не требуется знать, является ли ссылка определенно следующим или предыдущим URL, просто она является одной из этих двух.

У меня уже есть короткий список:

  • Тот же домен и путь, что и у URL, но разные параметры запроса.
    • base: abc.com/story
    • next / previous: abc.com/story?p= 2
      • или
    • base: abc.com/story.html?p=5
    • следующий / предыдущий: abc.com/story.html? p = 3
  • URL-адрес совпадает с базовым URL-адресом, за исключением элемента числового пути.
    • base: abc.com/story
    • следующий / предыдущий: abc.com/story/2
  • Несколько ссылок рядом друг с другом в DOM / HTML.
    • Я знаю, что это также может быть как верхний / нижний колонтитул, я должен был бы как-то объяснить это ... какие-нибудь идеи?
  • Ссылки, текст которых является числом иличьим тестом являются такие слова, как «Далее», «Предыдущий», «Первый», «Последний», «Назад», «Вперед» и т. д.

Я знаю, что никогда не смогу быть идеальным в этом, но я хотел бы получить как можно больше освещения и как можно больше эвристик, чтобы надеяться на хорошее сочетание, количество и качество.Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...