Из вашего вопроса не ясно, являетесь ли вы программистом или нет, поэтому я не уверен, что вам нужны инструменты в смысле приложений или сервисов, которые вам нужны, или библиотека, которая делает майнинг сайтов проще.
Если последний случай и вы используете ruby, я могу полностью порекомендовать WWW :: Mechanize . Он предоставляет хороший API для написания скриптов для поиска веб-страниц (по DOM или по тексту), перехода по ссылкам и заполнения форм. Я использовал это несколько раз, чтобы организовать информацию, которая распространяется на несколько веб-страниц на сайте.
Я полагаю, что версия ruby была основана на более ранней библиотеке для perl , но я не могу поручиться за версию perl, я ее не использовал.