это пример новостей Google о проверке HTML - PullRequest
0 голосов
/ 23 апреля 2011

Мне нужно сделать веб-приложение похожим на новости Google. Нужно ли изучать html-утилизацию для этого или еще каких-то приемов

Ответы [ 2 ]

1 голос
/ 23 апреля 2011

Большая часть материала, который показывает Новости Google, - это RSS / ATOM. Получить контент сайта через RSS-каналы слишком просто, по сравнению с просмотром.

Кроме этого, если вы можете использовать Java, то вы можете самостоятельно отсканировать html, используя отличную библиотеку Goose . Это похоже на то, что использует Flipboard / Instapaper

1 голос
/ 23 апреля 2011

Самое простое решение - получить RSS или ATOM-канал веб-сайта, с которого вы пытаетесь получить данные.

Это широко известные форматы, и извлечение информации из таких XML-каналов будет намного прощечем получать его со страницы HTML: с RSS / ATOM вам просто нужно проанализировать канал XML и извлечь теги, содержащие информацию, которая вас интересует.

Не уверен, с каким языком вы работаете, но есть вероятность, что вы найдете библиотеку, которая поможет вам в этом.


Если веб-сайт не экспортирует канал RSS / ATOM ... Что ж, вам, вероятно, придется вернуться кHTML-утилизация;Удачи вам в этом, поскольку HTML не так хорошо структурирован, как RSS / ATOM: вам необходимо выяснить для каждого веб-сайта, где на странице есть соответствующая информация.

...