Предложение с лучшими настраиваемыми гусеницами и скребками - PullRequest
0 голосов
/ 11 ноября 2010

У меня есть неплохой веб-сайт, но с очень небольшим количеством информации.Поэтому я чувствовал, что хочу добавить информацию, например, новости о конкретном секторе (например, о политике, Голливуде и т. Д.).Я считаю, что сканеры - лучший способ сделать это?Верно ли мое понимание, пожалуйста, предложите, если вы чувствуете какой-либо другой способ получить информацию, не используя сканеры из различных источников.

Во-вторых, я занимаюсь исследованиями за последние 2 дня и не могу найти конкретный источник, который способен сделатьтак.Теперь я хочу, чтобы сканеры находили информацию, нормализовали и хранили ее в базе данных MySQL.Звучит довольно просто, ха.Но это не для меня.

Поскольку это очень ресурс и время.Что нужно учесть, прежде чем выбрать гусеничный ход.Кроме того, я хочу настроить его так, чтобы любой инструмент с открытым исходным кодом, который можно настраивать, будет отличным.

Любой источник, дающий информацию и информацию о факторах, необходимо учитывать при создании сканеров или обучении сканерам.отличный.Я предпочитаю кодировать на Java, но я могу писать на любом другом языке, если вы чувствуете, что у вас есть какой-то язык.Я надеюсь, что дал достаточно информации.Пожалуйста, не стесняйтесь, если вам нужна дополнительная информация, чтобы дать предложение.

Ответы [ 2 ]

0 голосов
/ 11 ноября 2010

Попробуйте инструмент GNU Wget .Вы можете добавить много интеллекта к способу сканирования и создания дампов данных веб-страниц.Он также с открытым исходным кодом и настраиваемый, а также очень быстрый.

0 голосов
/ 11 ноября 2010

Вы можете использовать httrack , чтобы скопировать целевой веб-сайт.Существует один плагин Firefox, который также называется Spiderzilla.Но они просто сохранят страницы.

Если вы хотите проанализировать данные на страницах, вы можете использовать simple_html_dom и сохранить информацию в mySQL.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...