В настоящее время я остро нуждаюсь в новостных статьях для тестирования реализации LSI (на иностранном языке, поэтому нет обычных пакетов готовых к использованию файлов).
Так что мне нужен сканер, который имеет начальный URL, скажем, http://news.bbc.co.uk/ следует за всеми содержащимися ссылками и сохраняет их содержимое в файлы .txt, если бы мы могли указать формат UTF8, я был бы на небесах .
У меня 0 экспертных знаний в этой области, поэтому я прошу вас предложить несколько вариантов использования сканера для этой задачи.