Как получить описание URL - PullRequest
2 голосов
/ 19 ноября 2008

У меня есть список URL-адресов, и я пытаюсь собрать их «описания». Под описанием я подразумеваю то, что подходит, например, если вы гуглили ссылку. Например, http://stackoverflow.com">Google: http://stackoverflow.com показывает описание как

Независимый от языка совместный отредактированный сайт вопросов и ответов для программисты. Вопросы и ответы отображаются голосами пользователей и тегами.

Это данные, которые я пытаюсь собрать для имеющихся у меня URL.

Я попытался разобрать мета-описания URL, однако в большинстве из них отсутствует мета-описание (хотя Google и другим поисковым системам удается как-то получить описание).

Есть идеи? Должен ли я просто "погуглить" каждую ссылку и очистить данные? У меня такое чувство, что Google это не понравится ...

Спасибо, ребята.

Ответы [ 7 ]

1 голос
/ 19 ноября 2008

Различные поисковые системы имеют разные алгоритмы, чтобы вывести описание со страницы, если / когда им не хватает метатега описания. Некоторые игнорируют тег, даже если он там есть.

Если вам нужно описание, которое есть у Google, самый точный способ получить его - очистить его. В противном случае, вы можете написать свой собственный или поискать в Интернете код, который это делает.

1 голос
/ 19 ноября 2008

Это так называемые фрагменты.

Google использует проприетарные (и, возможно, запатентованные ) методы для сбора этой информации, поэтому простого ответа нет.

Как вы предлагаете, они будут использовать информацию мета-описания, если она там есть. ( Как настроить мета-информацию, чтобы помочь Google .)

Они также будут выполнять запросы от авторов страницы, чтобы НЕ включал фрагменты. ( Как запретить Google отображать фрагменты ) Вероятно, вы должны это учитывать (как и robots.txt, конечно.)

Возможно, вам повезет с существующими пакетами авто-сводки, такими как OTS .

0 голосов
/ 19 ноября 2008

Если вы можете предполагать содержание на английском языке, вы можете сначала поискать мета-описание, а если это не сработает, вы можете найти первые две или три последовательности слов в виде предложений.

Продукт, над которым я работал, искал первый P или DIV, который содержал более одной последовательности> n «слов», разделенных точками. В качестве итогового абзаца он будет использовать две-три последовательности, похожие на предложения, до х слов. Это не было на 100% точно, но достаточно хорошо для среднего случая. Количество слов было изменено несколько раз, чтобы исключить такие элементы, как элементы навигации.

0 голосов
/ 19 ноября 2008

Интересно. некоторые источники лучше других.

Для "audiotuts.com" google имеет худшее описание, чем AboutUs.com .

Google

18 ноября в целом, Джоэл Фальконер · 1. Недавно читатель AUDIOTUTS спросил меня о творческом процессе. Хотя это это тема, которая не может быть превращена в ...

AboutUs.com:

AUDIOTUTS - это блог / учебный сайт для музыканты, продюсеры и аудио Наркоманы! Это родственный сайт популярные PSDTUTS, VECTORTUTS и Nettuts.

Я ненавижу подобные проблемы ... они должны быть простыми, но это не так!

0 голосов
/ 19 ноября 2008

Я не знаком с API Google , но, возможно, существует официальный способ получения такой информации.

0 голосов
/ 19 ноября 2008

Некоторая информация, которая может объяснить, как Google это делает:

0 голосов
/ 19 ноября 2008

Вы можете проверить AboutUs.org (т. Е. http://www.aboutus.org/StackOverflow.com). Но маловероятно, что на сайте будет страница о нас и мета-описание.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...