Возможно, это может занять некоторое время, в зависимости от производительности вашей машины и вашего интернет-соединения.
Вы можете использовать библиотеку PHP cURL для автоматической отправки веб-запросов, а затем вы можете легко проанализировать данные с помощью библиотеки, например: simpHtmlDOM или использование нативного PHP DOM. Но остерегайтесь нехватки памяти, я также настоятельно рекомендую запускать скрипт из оболочки, а не из веб-браузера. Также рассмотрите возможность использования функций multi curl для ускорения процесса.
Это очень просто и быстро реализовать, хотя многопоточность в этом случае значительно повысит производительность, поэтому я предлагаю использовать один из других предложенных вами языков. Я знаю, что вы могли бы легко сделать это на Java с помощью библиотеки Apache HttpClient, манипулировать DOM и извлекать данные с помощью встроенной поддержки x-path, выполнять регулярные выражения или использовать одну из множества сторонних реализаций dom в Java.
Я настоятельно рекомендую также ознакомиться с библиотекой Java HtmlUnit , где это может значительно облегчить вашу жизнь, но, возможно, вы можете испытать снижение производительности. Хорошая многопоточная реализация даст огромный прирост производительности, а плохая может ухудшить работу вашей программы.
Вот некоторые ресурсы для Python:
http://docs.python.org/library/httplib.html
http://www.boddie.org.uk/python/HTML.html
http://www.tutorialspoint.com/python/python_multithreading.htm