Да, требуется очистка веб-страниц, и это самая простая часть.Сложной частью является общий алгоритм поиска заголовков и соответствующих текстов и изображений.
Как очистить
Вы можете использовать jsdom, чтобы загрузить и создать структуру DOM на вашем сервере и очистить ее с помощью jquery.на вашем сервере.Вы можете найти хороший учебник по адресу blog.nodejitsu.com / jsdom-jquery-in-5-lines-on-nodejs , как предложено @generalhenry выше.
Что почистить
Полагаю, хорошим способом найти заголовок будет: -
var h;
for(var i=6; i<=1; i++)
if(h = $('h'+i).first()){
break;
}
Теперь у h
будет заголовок или undefined
в случае неудачи.Альтернативой для этого может быть просто получить тег title
на странице.:)
Что касается изображений.Перечислите все или первые несколько изображений на этой странице, которые являются достаточно большими, то есть для того, чтобы отфильтровать спрайты, используемые для кнопок, стрелок и т. Д.
И при получении удаленных данных убедитесь, что флаг ProcessExternalResources
выключен,Это гарантирует, что теги сценариев для рекламы не будут загрязнять извлеченную страницу.
И да, соответствующий текст будет в некоторых тегах после h
.