Ну, ваш вопрос все еще немного расплывчатый. В большинстве случаев «сканер» собирается просто найти данные в Интернете в текстовом формате и обработать их для хранения, анализа и т. Д. «Снимок экрана Facebook» - это совершенно другой зверь.
Если вы просто ищете веб-сканер, есть несколько библиотек, которые могут быть использованы для очень простого обхода DOM веб-страницы и могут захватывать контент, который вы ищете.
Если вы используете Python, попробуйте Beautiful Soup
Если вы используете Ruby, попробуйте hpricot
Если вы хотите, чтобы все содержимое веб-страницы было обработано позднее, просто получите и сохраните все под тегом html.
Вот пример BeautifulSoup, чтобы убрать все ссылки со страницы:
require 'hpricot'
require 'open-uri'
doc = Hpricot(open("http://www.stackoverflow.com"))
(doc/"a").each do |link|
puts link.attributes['href']
end
Редактировать: если вы собираетесь в первую очередь получать контент с одних и тех же сайтов (например, раздел комментариев Reddit, вопросы из StackOverflow, ссылки Digg и т. Д.), Вы можете жестко указать их формат, чтобы ваш сканер мог сказать: Хорошо, я на Reddit, получаю все с классом "вещь". Вы также можете дать ему список вещей по умолчанию для поиска, таких как div с классом / id "main", "content", "center и т. д.