Как собирать данные с сайта - PullRequest
1 голос
/ 18 декабря 2011

Предисловие: у меня есть широкие знания в колледже, несколько языков (C ++, VB, C #, Java, многие веб-языки), так что выбирайте, когда захотите.

Я хочу сделатьAndroid-приложение, которое сравнивает числа, но для этого мне нужна база данных.Я - команда из одного человека, и номера обновляются каждые две недели, поэтому я хочу получить эти цифры из вики, которая также обновляется.

Итак, мой вопрос: как я могу получить доступ к информации с веб-сайта?используя один из языков выше?

Ответы [ 5 ]

4 голосов
/ 18 декабря 2011

В чем заключается проблема: какой-то объект генерирует набор данных (то есть числа) каждую вторую неделю, и вам необходимо загрузить этот набор данных для обработки (например, сортировка).

В идеале, веб-сайт, поддерживающий вики, должен предоставлять Сервис, такой как RESTful-интерфейс , для простого сбора данных. Если бы это было так, я бы выбрал любой язык, который обеспечивает простое манипулирование запросами и ответами HTTP и упрощает манипулирование данными. Как сказал предыдущий автор, Java будет хорошо работать.

Если вы застряли на вики-странице, у вас есть несколько вариантов. Вы можете анализировать HTML, который получает ваш браузер (Perl приходит на ум как достойный язык для этого). Или вы можете использовать инструменты, созданные для этой цели, такие как Jsoup.

В вашем вопросе также упоминаются некоторые детали реализации, такие как необходимость в базе данных. Очевидно, что мне не хватает контекстной информации, чтобы понять, оптимально ли это, поэтому я не буду решать этот аспект проблемы.

2 голосов
/ 18 декабря 2011

Рассмотрим https://scraperwiki.com/ - это сайт, где пользователи могут добавлять скребки. Это бесплатно, если вы позволяете вашему скребку быть публичным. Результаты вашего скребка выставляются как csv и JSON.

Если вы не знаете, что такое «скребок», Google «скребет по экрану» - это давняя и разочаровывающая традиция для программистов, которые сталкивались с той же проблемой, что и у вас с начала сетевых вычислений.

2 голосов
/ 18 декабря 2011

http://jsoup.org/ - отличный инструмент Java для доступа к контенту на HTML-страницах

0 голосов
/ 18 декабря 2011

Для Python BeautifulSoup - один из самых терпимых парсеров HTML. В документации также перечислены аналогичные библиотеки в Ruby и Java , так что вы, вероятно, найдете там что-то уместное.

0 голосов
/ 18 декабря 2011

Вы можете проверить: http://web -harvest.sourceforge.net /

...