Загрузка HTML и извлечение текста - PullRequest
4 голосов
/ 12 января 2009

Каким будет хороший инструмент или набор инструментов для загрузки списка URL-адресов и извлечения только текстового содержимого? Spidering не требуется, но контроль над именами загружаемых файлов и многопоточность будут бонусом.

Платформа Linux.

Ответы [ 6 ]

5 голосов
/ 12 января 2009

wget | html2ascii

Примечание: html2ascii также можно назвать html2a или html2text (и я не смог найти для него подходящую страницу справочника в сети).

См. Также: lynx.

3 голосов
/ 12 января 2009

Python Beautiful Soup позволяет создать хороший экстрактор.

0 голосов
/ 12 января 2009

Используйте wget для загрузки необходимого html, а затем запустите html2text для выходных файлов.

0 голосов
/ 12 января 2009

PERL (Практический язык извлечения и отчетности) - это язык сценариев, который отлично подходит для этого типа работы. http://search.cpan.org/ содержит множество модулей, которые имеют необходимые функции.

0 голосов
/ 12 января 2009

Ищите Simple HTML DOM parser для PHP на Sourceforge. Используйте его для разбора HTML, который вы скачали с помощью CURL. Каждый элемент DOM будет иметь атрибут «незашифрованный текст», который должен содержать только текст. Я был очень успешным во многих приложениях, использующих эту комбинацию в течение достаточно долгого времени.

0 голосов
/ 12 января 2009

Я знаю, что w3m можно использовать для рендеринга HTML-документа и помещения текстового содержимого в текстовый файл. w3m www.google.com> file.txt, например.

В остальном я уверен, что wget можно использовать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...