Если вы сильнее с одной конкретной технологией и у вас есть тупик (или другие факторы), тогда используйте эту технологию, поскольку у них всех есть возможности.
Если это не так, то это соответствует требованиям проекта, который вы предпринимаете, а также, если вы хотите / способны освоить новую технологию.
PHP является наиболее естественнымвеб-технологии, и вы можете использовать такую библиотеку, как Simple HTML DOM Parser (она также поддерживает XML), чтобы получить быстрые результаты, а также углубиться в сложности веб-анализа, которые также поддерживает PHP.
У Java есть замечательный проект под названием Web Harvest , который я использовал в прошлом с хорошими результатами (несмотря на то, что вы изучали нестандартный синтаксис XML, но он похож на xslt) и один разваша система настроена, ваш веб-скребок может быть легко изменен.
Perl является самым сильным, когда дело доходит до регулярных выражений (Java и особенно PHP могут стать немного запутанными при работе с регулярными выражениями, как я нахожу), и регулярные выражения - это хороший навык, который нужно иметь в зависимости от того, что вы хотите делать синформация, это также многозначительный вариант.