Я думаю, что они продвинулись в поиске наиболее значительных блоков данных и HTML и использовали их. По сути, они все быстро анализируют, отбрасывают рекламу и т. Д. И используют большие данные.
Дигг делает то же самое.
Я бы сделал это, чтобы реализовать это.
- Сканирование на наличие метатегов, тэгов rss и тега заголовка.
- Найти большие «области» с большим количеством контента. Также включите
p
теги. Оцените или оцените их по вероятности того, что они будут довольны. Ищите ключевое слово css classes / id (например, показатель "содержание" выше, чем "реклама" или "навигация"
- Поиск больших изображений
- Хранить информацию о сайте для дальнейшего использования и улучшенной эвристики
Все это, вероятно, выполняется на стороне сервера и передается в браузер с использованием AJAX.