Извлечение общей статьи из веб-страниц - PullRequest
2 голосов
/ 11 ноября 2010

Собираюсь начать свою работу по извлечению статьи.

Задача, которую я буду выполнять, состоит в том, чтобы извлечь отзывы об отелях, размещенные на разных веб-страницах (например, 1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html, 2. http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html)

Мне нужно выполнить задачу на Java, и я просто работаю с Java только последние пару месяцев ..

И вот мои вопросы относительно них.

  1. Существует ли возможность извлекать обзоры отдельно с разных веб-страниц общим способом.

  2. Пожалуйста, дайте мне знать, если есть какой-либо API, который поддерживает задачу в Java.

  3. Также, дайте мне знать о ваших мыслях / источниках, которые будут более полезными для меня, чтобы выполнить задачу, упомянутую выше.

UPDATE

Если какие-либо похожие примеры доступны в сети, пожалуйста, опубликуйте их, так как это может быть полезно.

1 Ответ

4 голосов
/ 11 ноября 2010

Вам, вероятно, понадобится утилита очистки экрана для Java, такая как TagSoup или NekoHTML . JSoup также популярен.

Однако при извлечении данных со стороннего веб-сайта, такого как tripadvisor, вы также должны уделять больше внимания юридическим вопросам. Их политика это позволяет?

...