Предполагая, что вы хотите сделать это с Groovy (предположим, основываясь на теге groovy), ваши подходы, скорее всего, будут либо сильно ориентированы на shell-сценарии, либо с использованием библиотек Java. В случае сценариев оболочки я бы согласился с moogs, что использование Lynx или Elinks, вероятно, самый простой способ сделать это. В противном случае посмотрите на HTMLParser и посмотрите Обработка каждого слова в файле (прокрутите вниз, чтобы найти соответствующий фрагмент кода)
Вероятно, вы застряли в поиске библиотек Java для использования с Groovy для анализа HTML, поскольку, похоже, для этого нет библиотек Groovy. Если вы не используете Groovy, пожалуйста, опубликуйте нужный язык, поскольку существует множество HTML-инструментов для текста , в зависимости от того, на каком языке вы работаете.