BeautifulSoup хорошо подходит для выполнения большинства из этих задач.
По сути, вы просто инициализируете объект soup
, а затем делаете что-то вроде следующего, чтобы извлечь то, что вас интересует:
title = soup.findAll('title')
images = soup.findAll('img')
Затем можно загрузить каждое из изображений на основе их url
, используя urllib2
.
Название довольно простое, но изображения могут быть немного сложнее, так как вам нужно загрузить каждое из них, чтобы получить соответствующую статистику на них. Возможно, вы могли бы отфильтровать большинство изображений по размеру и количеству цветов? Закругленные углы, например, будут маленькими и обычно имеют только 1-2 цвета.
Что касается сводки страниц, это может быть немного сложнее, но я делал что-то вроде этого:
- Я использую BeautifulSoup , чтобы удалить все блоки стилей, сценариев, форм и заголовков из
html
, используя: .findAll
, затем .extract
.
- Я беру оставшийся текст, используя:
.join(soup.findAll(text = True))
В вашем приложении, возможно, вы могли бы использовать это "text"
содержимое в качестве сводки страницы?
Надеюсь, это поможет.