Как крупные веб-сайты захватывают миниатюры по ссылке? - PullRequest
4 голосов
/ 18 сентября 2011

При обмене ссылками на крупных сайтах, таких как Digg и Facebook;это создаст миниатюры, захватив основные изображения страницы.Как они ловят изображения с веб-страницы?Включает ли это загрузку всей страницы (например, с помощью cURL) и ее разбор (например, с помощью preg_match)?Для меня этот метод медленный и ненадежный.Есть ли у них более практичный метод?

PS Я думаю, что должен быть практичный метод для быстрого сканирования страницы путем пропуска некоторых частей (например, CSS и JS) для достижения атрибутов src.Есть идеи?

Ответы [ 4 ]

2 голосов
/ 18 сентября 2011

Они обычно ищут изображение на странице и уменьшают его на своих серверах. код скребка Reddit показывает многое из того, что они делают. Класс скребка должен дать вам несколько хороших идей о том, как справиться с этим.

1 голос
/ 10 января 2012

Ответ JohnD показывает, что Reddit использует embed.ly как часть своего решения Python.Действительно embed.ly делает трудную часть поиска изображения, и они бесплатны при 10000 запросов / мес.

0 голосов
/ 18 сентября 2011

Они обычно используют такой инструмент, как webkit2png .

0 голосов
/ 18 сентября 2011

Некоторые используют

 <link rel="image_src" href="yourimage.jpg" /> 

, включенные в заголовок страницы.См. http://www.labnol.org/internet/design/set-thumbnail-images-for-web-pages/6482/

Facebook использует

<meta property="og:image" content="thumbnail_image" />

см .: http://developers.facebook.com/docs/share/#basic-tags

...