Как я могу начать программно анализировать содержимое веб-сайта? - PullRequest
2 голосов
/ 19 мая 2011

Я искал новый проект по программированию для хобби, и я думаю, что было бы интересно поиграть способами, чтобы программно собирать информацию с веб-сайтов, а затем анализировать эти данные для таких вещей, как агрегирование или фильтрация.Например, если я хотел написать приложение, которое могло бы составлять списки Craiglist, а затем делать что-то вроде отображения только тех, которые соответствуют определенному городу, а не только географической области.Это всего лишь простой пример, но вы можете использовать его как продвинутый и изощренный, как то, как Google анализирует контент сайта, чтобы узнать, как его оценить.

Я почти ничего не знаю об этом и думаю, что было бы интересноузнать больше об этом, или, надеюсь, сделать очень скромный программный проект в этой теме.Моя проблема в том, что я так мало знаю, что даже не знаю, как найти дополнительную информацию по этому предмету.

Как называются эти типы программ?Какие полезные ключевые слова использовать при поиске в Google?Где я могу получить вводный материал для чтения?Есть ли интересные статьи, которые я должен прочитать?

Все, что мне нужно, это чтобы кто-то отвлек меня от моего невежества, чтобы я мог самостоятельно провести какое-то исследование.

Ответы [ 3 ]

1 голос
/ 19 мая 2011

Программы, которые "сканируют" другие сайты, обычно называются поисковыми роботами или пауками.

1 голос
/ 19 мая 2011

cURL (http://en.wikipedia.org/wiki/CURL) - хороший инструмент для извлечения содержимого веб-сайта и передачи его процессору.

Если вы владеете определенным языком, посмотрите, поддерживает ли он cURL. Если нет, то PHP (php.net) может быть хорошим местом для начала.

Когда вы получили содержимое веб-сайта с помощью cURL, вы можете использовать функцию обработки текста на языке для анализа данных. Вы можете использовать регулярные выражения (http://www.regular -expressions.info /) или функции, такие как PHP strstr (), для поиска и извлечения конкретных данных, которые вы ищете.

0 голосов
/ 19 мая 2011

Я недавно завершил проект, использующий Google Search Appliance, который в основном сканирует весь домен .com веб-сервера.
GSA - очень мощный инструмент, который в значительной степени индексирует все URL-адреса, с которыми сталкивается, и предоставляет результаты.
http://code.google.com/apis/searchappliance/documentation/60/xml_reference.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...