Лучший пример, который я видел до сих пор, это http://www.instapaper.com/. Они могут получить текст с любой страницы.
В моем случае мне нужно получить текст, а также создать список, учитывая, что у меня будет одна страница со списком новостей каждого сайта.
Например, nytimes.com (просто пример). Я должен получить все ссылки и получить текст, если он существует. Также, возможно, мне нужно указать некоторые критерии URL, такие как генерация каналов из ссылок, где URL содержит что-то вроде "/[year]/[month/[day]/[category]/post-name".
Мне не нужен полный код, просто концепция и лучший подход. Есть идеи?