Определите, находится ли URL-адрес в верхнем / нижнем колонтитуле веб-страницы с указанным URL-адресом, DOM-страницей, родительским URL-адресом и URL-адресами других страниц - PullRequest
0 голосов
/ 21 июля 2010

Учитывая URL, URL веб-страницы, на которой находится первый URL, DOM веб-страницы и список остальных URL-адресов на веб-странице, как я могу надежно определить, является ли URL-адреснаходится в верхнем / нижнем колонтитуле страницы или если он ни в одном из них?

Я использую C # /. NET.

Я знаю, что ни одно из решений не является идеальным, поскольку веб-страницы не выражены в семантической форме и нетакже потому, что некоторые веб-сайты / страницы специально запутывают свои страницы, но я хотел бы создать некоторую логику, которая будет работать, скажем, на 75% веб-страниц .

Кроме того, существуют ли другие части информации, которыебыло бы полезно определить местоположение URL на странице?

1 Ответ

0 голосов
/ 21 июля 2010

Я думаю, что творческая задача здесь состоит в том, чтобы определить «верхний колонтитул» и «нижний колонтитул», как в «контенте, который находится менее чем в x единицах от верха», или «последних 200 символов на странице». Выполнив это, вы можете проанализировать страницу на основе этих правил.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...