Какой веб-сканер использовать для сохранения новостных статей с веб-сайта в файлы .txt? - PullRequest
1 голос
/ 19 февраля 2010

В настоящее время я остро нуждаюсь в новостных статьях для тестирования реализации LSI (на иностранном языке, поэтому нет обычных пакетов готовых к использованию файлов).

Так что мне нужен сканер, который имеет начальный URL, скажем, http://news.bbc.co.uk/ следует за всеми содержащимися ссылками и сохраняет их содержимое в файлы .txt, если бы мы могли указать формат UTF8, я был бы на небесах .

У меня 0 экспертных знаний в этой области, поэтому я прошу вас предложить несколько вариантов использования сканера для этой задачи.

Ответы [ 2 ]

1 голос
/ 19 февраля 2010

вы можете получить сайт с wget. Затем запустите все это через какой-нибудь HTML рендерер (текстовый браузер Lynx выполняет работу адекватно с опцией --dump-html) для преобразования HTML в TXT. Вам нужно будет написать скрипт для вызова Lynx для каждого загруженного файла самостоятельно, но это должно быть достаточно просто.

1 голос
/ 19 февраля 2010

То, что вы ищете, это "Скребок", и вам придется написать его. Более того, вы можете нарушать Условия использования BBC , как и все остальные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...