Какой лучший способ получить описание сайта в Python? - PullRequest
6 голосов
/ 26 июля 2010

Предположим, я скачал HTML-код и могу его проанализировать. Как получить «лучшее» описание этого сайта, если на этом сайте нет мета-тега описания?

Ответы [ 3 ]

3 голосов
/ 26 июля 2010

Вы можете получить первые несколько предложений, возвращенных чем-то вроде Читаемость .

Safari 5 использует его, поэтому с ним должно быть все в порядке:)

1 голос
/ 26 июля 2010

Чтобы прокомментировать предложенное выше «удобочитаемость» (которое само вдохновлено сайтом InstaPaper), они выпустили JavaScript: http://code.google.com/p/arc90labs-readability/. Более того, какой-то парень взял это и перенес его на python: http://github.com/gfxmonk/python-readability. Радуйся!

1 голос
/ 26 июля 2010

Очень трудно придумать правило, которое работает 100% времени, очевидно, но я бы предложил в качестве отправной точки искать первый тег <h1> (или <h2>, <h3>,и т. д. - самое высокое значение, которое вы можете найти), затем бит текста после , который можно использовать в качестве описания.Пока сайт семантически размечен, это должно дать вам хорошее описание (я думаю, вы также можете взять содержимое самого <h1>, но это больше похоже на "заголовок").

Интересно отметить, что Google (например) использует специфическое для ключевого слова извлечение содержимого страницы для отображения в качестве описания, а не статического описания.Не уверен, что это сработает для вашей ситуации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...