Question

Каким будет хороший инструмент или набор инструментов для загрузки списка URL-адресов и извлечения только текстового содержимого? Spidering не требуется, но контроль над именами загружаемых файлов и многопоточность будут бонусом.

Платформа Linux.

dsm · Answer 1 · 12 января 2009

wget | html2ascii

Примечание: html2ascii также можно назвать html2a или html2text (и я не смог найти для него подходящую страницу справочника в сети).

См. Также: lynx.

S.Lott · Answer 2 · 12 января 2009

Python Beautiful Soup позволяет создать хороший экстрактор.

Krishna Gopalakrishnan · Answer 3 · 12 января 2009

Используйте wget для загрузки необходимого html, а затем запустите html2text для выходных файлов.

olle · Answer 4 · 12 января 2009

PERL (Практический язык извлечения и отчетности) - это язык сценариев, который отлично подходит для этого типа работы. http://search.cpan.org/ содержит множество модулей, которые имеют необходимые функции.

Robert Elwell · Answer 5 · 12 января 2009

Ищите Simple HTML DOM parser для PHP на Sourceforge. Используйте его для разбора HTML, который вы скачали с помощью CURL. Каждый элемент DOM будет иметь атрибут «незашифрованный текст», который должен содержать только текст. Я был очень успешным во многих приложениях, использующих эту комбинацию в течение достаточно долгого времени.

Jean Azzopardi · Answer 6 · 12 января 2009

Я знаю, что w3m можно использовать для рендеринга HTML-документа и помещения текстового содержимого в текстовый файл. w3m www.google.com> file.txt, например.

В остальном я уверен, что wget можно использовать.

Загрузка HTML и извлечение текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Загрузка HTML и извлечение текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы