Существует ли популярный инструмент для сканирования веб-данных? - PullRequest
0 голосов
/ 14 декабря 2009

Я занимаюсь извлечением информации, и мне нужен инструмент для сканирования данных из Интернета. страница, есть ли популярный в Windows?

1 Ответ

9 голосов
/ 14 декабря 2009

От: http://en.wikipedia.org/wiki/Web_crawler:

  • Aspseek - это сканер, индексатор и поисковая система, написанные на C и лицензированные по лицензии GPL
  • arachnode.net - это веб-сканер .NET, написанный на C # с использованием SQL 2008 и Lucene.
  • DataparkSearch - это сканер и поисковая система, выпущенная в соответствии с Стандартной общественной лицензией GNU.
  • GNU Wget - это искатель, управляемый из командной строки, написанный на C и выпущенный под лицензией GPL. Обычно используется для зеркалирования веб-сайтов и FTP-сайтов.
  • GRUB - это поисковый искатель с открытым исходным кодом, который Wikia Search (http://wikiasearch.com) использует для сканирования в Интернете.
  • Heritrix - это искатель архивного качества Интернет-архива, предназначенный для архивирования периодических снимков большой части Интернета. Это было написано на Java.
  • ht: // Dig включает в свой механизм индексирования веб-сканер.
  • HTTrack использует сканер для создания зеркала веб-сайта для просмотра в автономном режиме. Он написан на C и выпущен под лицензией GPL.
  • ICDL Crawler - это межплатформенный веб-сканер, написанный на C ++ и предназначенный для сканирования веб-сайтов на основе шаблонов синтаксического анализа веб-сайтов с использованием только бесплатных ресурсов ЦП компьютера.
  • mnoGoSearch - сканер, индексатор и поисковая система, написанные на C и лицензированные по лицензии GPL
  • Nutch - это сканер, написанный на Java и выпущенный по лицензии Apache. Его можно использовать вместе с пакетом индексации текста Lucene.
  • Pavuk - это инструмент веб-зеркала командной строки с дополнительным искателем графического интерфейса пользователя X11, выпущенный под лицензией GPL. По сравнению с wget и httrack он обладает множеством дополнительных функций, например, фильтрация на основе регулярных выражений и правила создания файлов.
  • YaCy , бесплатная распределенная поисковая система, построенная на принципах одноранговых сетей (лицензируется по лицензии GPL).

И немного прочтения: Spidering Hacks 100 Советы и инструменты по промышленной прочности :

Созданный для разработчиков, исследователей, технических помощников, библиотекарей и опытных пользователей, Spidering Hacks предлагает экспертные советы по методикам паутинга и очистки. Вы начнете с ускоренного курса по паутинговым концепциям, инструментам (Perl, LWP, готовые утилиты) и этике (как узнать, когда вы зашли слишком далеко: что является приемлемым и неприемлемым). Далее вы будете собирать медиафайлы и данные из баз данных. Затем вы узнаете, как интерпретировать и понимать данные, переназначать их для использования в других приложениях и даже создавать авторизованные интерфейсы для интеграции данных в ваш собственный контент.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...