Как я могу загрузить XML-файлы и проанализировать веб-страницу (например, HTML) с помощью Java? - PullRequest
0 голосов
/ 18 декабря 2011

У меня есть работа. Во-первых, моей программе будет дан аргумент. Этот аргумент будет содержать сайты, на которых я могу найти RSS-каналы (например: CnnRssFeeds ). Затем я должен посетить эти сайты и загрузить RSS-каналы (я думаю, что эти файлы обычно будут .xml файлами, верно?).

После этого мне нужно сохранить файлы .xml в папке на моем диске, и, наконец, я должен управлять ими, используя римскую библиотеку Java. Я буду извлекать некоторую информацию, такую ​​как: название, автор, описание, ссылка и т. Д.

Не могли бы вы мне помочь? У меня возникают проблемы, когда я хочу посетить каждый сайт и загрузить (сохранить) RSS (как я уже говорил выше, они обычно .xml файлы)

Ответы [ 2 ]

3 голосов
/ 18 декабря 2011

Для загрузки файлов вы можете использовать первый ответ на этот вопрос. (Я пробовал, это работает:))

А для синтаксического анализа XML вы можете использовать XPath.XPath используется для навигации по элементам и атрибутам в документе XML. Этот учебник по XPath выглядит довольно хорошо

1 голос
/ 18 декабря 2011

почему так много знаков вопроса?Если вы знаете, что посещаете сайт, у вас нет проблем с загрузкой содержимого какого-либо ресурса.Ваша проблема заключается в разборе HTML и извлечении URL RSS-канала.Фид встраивается в HTML-страницу с помощью тега link:

<link rel="alternate" type="application/rss+xml" title="My Feed" href="/feeds/myfeed" />

Итак, вам нужно проанализировать HTML.Есть несколько способов сделать это.Например, вы можете использовать jsoup или другое, что вам нравится.Как только вы сможете проанализировать HTML, вы можете извлечь значение атрибута href (/feeds/myfeed в нашем примере.) Теперь просто создайте полный URL-адрес (объедините URL-адрес вашей страницы с помощью /feeds/myfeed и загрузите ресурс.

...