Как извлечь изображения из веб-страницы, как это делает Facebook? - PullRequest
0 голосов
/ 28 сентября 2010

Если я вставлю в мою стену ссылку, подобную этой:

http://blog.bonsai.tv/news/il-nuovo-vezzo-della-lega-nord-favorire-i-lombardi-alluniversita/

затем Facebook извлекает изображение в посте, а не первое изображение на веб-странице (например, не логотип изображения или другие маленькие изображения) !!

Как это делает facebook?

Ответы [ 4 ]

1 голос
/ 13 февраля 2012

Как уже говорили другие, мы понятия не имеем, как Facebook решает, что выбрать при отсутствии каких-либо соответствующих метаданных (хотя догадки Слескке кажутся разумными; я также предполагаю, что они смотрят на первое большое изображение), но вы можете Избегайте этого, выбрав правильный маршрут и просто предоставив метаданные addiotnal Facebook (и аналогичные сервисы) о своей странице, используя теги Open Graph Protocol , например, если вы хотите указать конкретное изображение, которое будет использоваться для Facebook, например , вы бы включили это в свой тег head:

<meta property="og:image" content="<your image URL>" />

OGP также используется LinkedIn, Google+ и многими другими.

Если вы находитесь в Wordpress, вы можете управлять этими тегами с помощью плагина с открытым графиком . Другие системы могут сделать это вручную или с помощью своих собственных плагинов.

1 голос
/ 28 сентября 2010

Хм, невозможно сказать без дополнительной информации об используемом ими алгоритме.

Однако, взглянув на исходный код страницы, вы можете увидеть, что хотя изображение Босси не первое изображение на страницеэто первое внутри div'ов "page_content" и "post_content".Возможно, Facebook знают HTML-идентификаторы, которые использует система ведения блогов (в данном случае Wordpress), и используют их, чтобы найти первое изображение, которое фактически является частью содержимого страницы.по сути это реализация "семантической паутины" ...

0 голосов
/ 28 сентября 2010

Я предполагаю, что Facebook создал несколько алгоритмов, позволяющих отличить фактический контент от других данных на html-странице. При просмотре предоставленной страницы это довольно просто, поскольку элемент html, содержащий содержимое страницы, имеет id = "page_content", что не требует пояснений.

0 голосов
/ 28 сентября 2010

Я могу представить, что сканер Facebook может определить фактическую часть контента и выбрать изображение из него. Подобные функции используются в Safari Reader . Вероятно, помогает то, что используемым программным обеспечением является Wordpress, который является самым популярным программным обеспечением для ведения блогов. Facebook быстро выиграет, добавив специальную поддержку для этого программного обеспечения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...