Question

В настоящее время я остро нуждаюсь в новостных статьях для тестирования реализации LSI (на иностранном языке, поэтому нет обычных пакетов готовых к использованию файлов).

Так что мне нужен сканер, который имеет начальный URL, скажем, http://news.bbc.co.uk/ следует за всеми содержащимися ссылками и сохраняет их содержимое в файлы .txt, если бы мы могли указать формат UTF8, я был бы на небесах .

У меня 0 экспертных знаний в этой области, поэтому я прошу вас предложить несколько вариантов использования сканера для этой задачи.

SF. · Answer 1 · 19 февраля 2010

вы можете получить сайт с wget. Затем запустите все это через какой-нибудь HTML рендерер (текстовый браузер Lynx выполняет работу адекватно с опцией --dump-html) для преобразования HTML в TXT. Вам нужно будет написать скрипт для вызова Lynx для каждого загруженного файла самостоятельно, но это должно быть достаточно просто.

rook · Answer 2 · 19 февраля 2010

То, что вы ищете, это "Скребок", и вам придется написать его. Более того, вы можете нарушать Условия использования BBC , как и все остальные.

Какой веб-сканер использовать для сохранения новостных статей с веб-сайта в файлы .txt?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой веб-сканер использовать для сохранения новостных статей с веб-сайта в файлы .txt?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов