Есть ли модуль Python, который веб-интерфейс очищает изображение, заголовок и описание какой-либо ссылки? - PullRequest
1 голос
/ 05 июля 2011

То, что я ищу, должно дать мне что-то вроде этого -> enter image description here

Ответы [ 4 ]

1 голос
/ 05 июля 2011

Существует много доступных API, которые могут выполнить вашу задачу (точнее, задачу, которую вы описываете для своего вопроса, а не изображение :)). Я лично использую diffbot , который я обнаружил после прочтения this . Однако будьте осторожны, так как извлечение контента не всегда заканчивается успехом из-за характера веб-страниц. Вместо этого он опирается на эвристику и обучение и, следовательно, может не подходить для ваших конкретных целей ...

0 голосов
/ 05 января 2013

Это должно помочь: http://palewi.re/posts/2008/04/20/python-recipe-grab-a-page-scrape-a-table-download-a-file/

Узнает, как очищать контент и изображения и хранить его.

0 голосов
/ 05 июля 2011

Вы действительно должны использовать интерпретацию страницы поисковыми системами и изображения на ней.

Вы можете использовать оболочку Python в bing API или xGoogleбиблиотека .

Остерегайтесь поддельных библиотек xGoogle для Google, как если бы они были браузером, и, возможно, не одобряете способ использования данных Google.

0 голосов
/ 05 июля 2011

Если вам нужен полный скриншот страницы, то вам может помочь что-то вроде https://stackoverflow.com/questions/1041371/alexa-api?

В противном случае, если вы просто хотите получить несколько ключевых изображений со страницы..

Вы можете использовать механизировать, чтобы помочь вам.При подключении к веб-странице вы можете осуществлять поиск по всем ссылкам на странице, используя:

for link in br.links():

, где br - это объект вашего браузера.

Вы можете увидеть пример здесь: Загрузите все ссылки (связанные документы) на веб-странице, используя Python

, если вы напечатаете dir (ссылка), он покажет вам различные свойства, такие как link.text и link.url.Более того, вы можете импортировать urlparse.urlsplit и использовать его в URL.Вы можете направить браузер к URL-адресу и очистить изображения, как показано в примере выше.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...