Мне нужно создать html-парсер, который с учетом URL-адреса блога возвращает список со всеми сообщениями на странице.
- Т.е. если на странице 10 сообщений, она должна вернутьсясписок из 10 div, где каждый div содержит h1 и p
Я могу 'не использовать его RSS-канал, потому что мне нужно точно знать, как он выглядит для пользователя, есть ли у него какая-либо реклама, изображение и т.д.наоборот.
Во всяком случае, я сделал один, который загружает его фид и ищет в html похожий контент, он очень хорошо работает для некоторых блогов, но не для других.
Я не знаюНе думаю, что я могу создать парсер, который будет работать на 100% разбираемых им блогов, но я хочу сделать все возможное.
Каким должен быть наилучший подход?Ищите теги, у которых атрибут id равен "post", "content"?Ищите теги p?и т. д. и т. д. ...
Заранее благодарим за любую помощь!