Как извлечь изображения с сайта, на который я ссылаюсь? - PullRequest
6 голосов
/ 28 марта 2010

Если вы знакомы с Reddit, вы узнаете, как все их сообщения, содержащие изображения, получают небольшой эскиз рядом с заголовком представления. Как Reddit делает это? Он просто проверяет, заканчивается ли ссылка .jpg, .png, .bmp и т. Д.

Ответы [ 3 ]

3 голосов
/ 28 марта 2010

Reddit будет пытаться получить миниатюру из любого источника, а не только URL изображения. Это делается, во-первых, с помощью установленных правил для определенных сайтов, а во-вторых, с помощью одного общего процесса извлечения миниатюр для неизвестных URL-адресов - и это автоматическое периодическое задание .

.

Одним из (многих) преимуществ reddit является то, что исходный код открыт , и если вы понимаете Python, вам следует проверить /r2/lib/scraper.py для более подробного просмотра. как работает этот процесс.

Кроме того, хотя StackOverflow - отличное место для ответов на вопросы, связанные с программированием, вы также можете обратиться к собственному / r / redditdev от Reddit за информацией о разработке Reddit.

Hey there redditor!

1 голос
/ 27 октября 2010
  1. Действительно, если URL содержит .jpg, .png, и т.д., используйте это.
  2. Если сайт популярный домен (flickr.com, youtube.com, amazon.com и т. д.), есть набор предопределенных правил для извлечения то, что вы знаете, будет актуально (может быть, это рекомендуемое изображение, YouTube миниатюра, изображение продукта Amazon, и др.)
  3. В противном случае, если все, что вам нужно работать с некоторым HTML, вам придется выкопать его самостоятельно. Вы можете выбрать первый на странице, самый большой по размеру, или даже тот, который вы алгоритмически определены как наиболее подходящие (например, относительно большие, внутри того, что вы считаете основным содержанием тела).

Если вам нужно прибегнуть к последнему варианту, я бы порекомендовал одну из техник - извлечь несколько изображений и протестировать их с помощью A / B, чтобы найти то, которое имеет лучший рейтинг кликов. Таким образом, вы почти всегда можете получить лучший.

0 голосов
/ 28 марта 2010

Вы можете проверить содержимое тега <img>.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...