Каким будет хороший инструмент или набор инструментов для загрузки списка URL-адресов и извлечения только текстового содержимого? Spidering не требуется, но контроль над именами загружаемых файлов и многопоточность будут бонусом.
Платформа Linux.
wget | html2ascii
wget
|
html2ascii
Примечание: html2ascii также можно назвать html2a или html2text (и я не смог найти для него подходящую страницу справочника в сети).
html2a
html2text
См. Также: lynx.
lynx
Python Beautiful Soup позволяет создать хороший экстрактор.
Используйте wget для загрузки необходимого html, а затем запустите html2text для выходных файлов.
PERL (Практический язык извлечения и отчетности) - это язык сценариев, который отлично подходит для этого типа работы. http://search.cpan.org/ содержит множество модулей, которые имеют необходимые функции.
Ищите Simple HTML DOM parser для PHP на Sourceforge. Используйте его для разбора HTML, который вы скачали с помощью CURL. Каждый элемент DOM будет иметь атрибут «незашифрованный текст», который должен содержать только текст. Я был очень успешным во многих приложениях, использующих эту комбинацию в течение достаточно долгого времени.
Я знаю, что w3m можно использовать для рендеринга HTML-документа и помещения текстового содержимого в текстовый файл. w3m www.google.com> file.txt, например.
В остальном я уверен, что wget можно использовать.