Как автоматизировать процесс ввода данных - PullRequest
1 голос
/ 18 апреля 2011

У меня есть ситуация, когда мне нужно посетить 100 нечетных веб-сайтов, чтобы собрать контактную информацию, а затем ввести ее на своем собственном сайте.Я хочу знать, возможно ли написать программу или сканер, если я правильно говорю, чтобы получить всю эту информацию.Я предполагаю, что информация будет доступна в неструктурированном html, а затем мне придется выполнить анализ, чтобы сделать ее структурированной. У кого-нибудь был подобный опыт в этом.Также хотел бы мнения о языке для использования.

Ответы [ 2 ]

1 голос
/ 18 апреля 2011

Вы ищете Web Scraper . Несколько поисковых запросов в Google должны найти различные бесплатные и коммерческие продукты, которые решат вашу проблему. Вам, вероятно, не нужно писать его самостоятельно, если собираемые вами данные достаточно просты и хорошо структурированы.

0 голосов
/ 18 апреля 2011

Попробуйте ruby ​​(механизировать lib):

http://mechanize.rubyforge.org/mechanize/GUIDE_rdoc.html

как пример:

agent.get('http://someurl.com/').search(".//p[@class='posted']")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...