Я считаю, что самое важное, что вы должны проанализировать, - это какую информацию вы хотите извлечь.Если вы хотите извлечь целые веб-сайты, как Google, вероятно, ваш лучший вариант - это проанализировать такие инструменты, как Nutch из Apache.org или решение flaptor http://ww.hounder.org Если вам нужно извлечь отдельные области в документах с неструктурированными данными - веб-сайты, документы, PDF- вероятно, вы можете расширить плагин Nutch для удовлетворения конкретных потребностей.nutch.apache.org
С другой стороны, если вам нужно извлечь определенные области текста или вырезки на сайте, где вы устанавливаете правила, используя DOM страницы, вероятно, то, что вам нужно проверить, больше относится к таким инструментам, как mozenda..com.с помощью этих инструментов вы сможете настроить правила извлечения, чтобы собирать определенную информацию на веб-сайте.Вы должны принять во внимание, что любые изменения на веб-странице приведут к ошибке вашего робота.
Наконец, если вы планируете разработать веб-сайт с использованием источников информации, вы можете приобрести информацию у таких компаний, как spinn3r.comесли они продают определенные ниши информации, готовые к употреблению.Вы сможете сэкономить много денег на инфраструктуре.Надеюсь, поможет!.Себастьяне.