У меня была своя большая доля создания сканеров с помощью Java с использованием Lucene, и на самом деле я уже отвечал на связанный с этим вопрос ранее о реальном процессе создания и структуре веб-сканера здесь . Это не относится непосредственно к вашему вопросу, но я думаю, что стоит упомянуть здесь.
В любом случае, я должен согласиться с Стивеном C , вам лучше использовать решение на чистой Java или на чистом Perl вместо сочетания обоих, однако мое мнение основано на том факте, что они полностью отличающиеся друг от друга, и объединение двух ( или более ) разных типов мышления обычно не самая оптимальная вещь, которую можно сделать.
То, что вы описали, также заставило меня задуматься об улучшении моего собственного сканера (, о котором я упоминал в другом ответе, который я указывал в первом абзаце ), в основном о фактической структуре сканирования. Хотя я верю, что потребуется гораздо больше времени, чтобы разработать способ вручную инструктировать Java-приложение сканировать некоторые URL-адреса в определенном шаблоне, как это было бы в Perl, но в Java это в конечном итоге приведет к гораздо более полезной части. программного обеспечения со всевозможными интересными небольшими функциями, которые не составит труда поддерживать.
С другой стороны, сторона сценариев в Java немного сложная, есть API сценариев, но поскольку сценарии предназначены для свободного определения того, что вы хотите сделать, и Java иногда может быть раздражающе строгой, она не так гибка, как одна. будет надеяться.
Чтобы действительно высказать мнение, я думаю, вам следует минимизировать ту часть языка программирования, которую сложнее поддерживать. Я не знаю, какой это для вас, но я бы предположил, Perl. По сути, используйте один из языков и используйте его в полной мере, не используйте другой язык в качестве ярлыка.