Сканирование в Интернете и оценка ссылок - PullRequest
0 голосов
/ 19 апреля 2009

Я знаю, что cURL загрузит полный файл.

Что я действительно хочу, так это взять все ссылки на странице и сравнить их с моими конкретными критериями, местоположением ссылки и т. Д. И решить, должен ли я получить эту страницу и проанализировать ее для получения информации.

В частности, я хочу найти ссылки, относящиеся к развлекательным мероприятиям, проанализировать данные и сохранить их в моей базе данных MySQL, чтобы заполнить веб-сайт событиями в моем регионе.

У кого-нибудь есть мысли о том, как это сделать?

1009 * Джейсон *

Ответы [ 5 ]

2 голосов
/ 19 апреля 2009

Я предлагаю вам основывать свои усилия на существующем решении для поиска и индексирования, а не реализовывать его самостоятельно в коде или с помощью таких инструментов, как CURL.

См., Например, Люцен .

1 голос
/ 19 июля 2009

Эти решения в других ответах звучат интересно, но я просто сделал нечто подобное и простое с C # / Mono и HTML Agility Pack .

0 голосов
/ 21 августа 2012

Как сказано выше, вы не упомянули язык. Если вы используете Ruby, для этого можно использовать гем паутины. Вы должны вручную указать, чтобы он не находил никаких ссылок (по умолчанию автоматически будут сканироваться все ссылки), и сделать это самостоятельно на каждой странице, поскольку вы сказали, что вам нужно их оценить, затем их можно было бы вручную поставить в очередь, если вы хотите ползти.

Похоже, что Ruby on Rails поддерживается общим хостингом godaddy, если это то, что вам нужно.

(только что видел, что это было 3 года назад, может помочь кому-то еще!)

0 голосов
/ 19 апреля 2009

Вы не указали язык программирования. Apache Droids может быть для вас, если вы хотите настроить его с помощью Java. Он запланирован как минимальный сканер, который вы можете настроить в соответствии со своими потребностями.

0 голосов
/ 19 апреля 2009

Если все, что вам нужно, это перечисление ссылок на странице, вы можете использовать .NET WebBrowser и DOM для этого. Выкопайте мой код для этого ... Я свяжусь с вами.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...