Как Facebook предварительно выбирает URL / фид контента? - PullRequest
1 голос
/ 24 июня 2009

Я разместил ссылку на сообщение в блоге в сообщении Facebook http://www.autoblog.com/2009/06/22/we-are-all-bumblebee-beijing-transformers-fans-gather-to-celebr/ и Facebook вставили заголовок и сокращенный текст, как если бы он выбрал их из RSS-канала http://www.autoblog.com/rss.xml но когда я отправил ссылку, пост в блоге уже истек - я проверил.

см. Этот скриншот: http://i43.tinypic.com/nwbu4m.jpg

Используется ли поиск с помощью feedburner? Как это может быть достигнуто аналогичным образом?

ура

1 Ответ

3 голосов
/ 24 июня 2009

Я думаю, что они продвинулись в поиске наиболее значительных блоков данных и HTML и использовали их. По сути, они все быстро анализируют, отбрасывают рекламу и т. Д. И используют большие данные.

Дигг делает то же самое.

Я бы сделал это, чтобы реализовать это.

  1. Сканирование на наличие метатегов, тэгов rss и тега заголовка.
  2. Найти большие «области» с большим количеством контента. Также включите p теги. Оцените или оцените их по вероятности того, что они будут довольны. Ищите ключевое слово css classes / id (например, показатель "содержание" выше, чем "реклама" или "навигация"
  3. Поиск больших изображений
  4. Хранить информацию о сайте для дальнейшего использования и улучшенной эвристики

Все это, вероятно, выполняется на стороне сервера и передается в браузер с использованием AJAX.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...