Я пишу сканер на Perl, который должен извлекать содержимое веб-страниц, находящихся на одном сервере. В настоящее время я использую модуль HTML :: Extract , чтобы выполнить эту работу, но я обнаружил, что модуль немного медленный, поэтому я посмотрел в его исходный код и обнаружил, что он не использует кеш подключения для LWP :: UserAgent .
Мое последнее средство - захватить исходный код HTML::Extract
и изменить его для использования кэша, но я действительно хочу этого избежать, если смогу. Кто-нибудь знает какой-либо другой модуль, который может выполнять ту же работу лучше? Мне просто нужно собрать весь текст в элементе <body>
со снятыми тегами HTML.