Итак, я хотел бы почистить этот сайт: http://boxerbiography.blogspot.com/
и создайте одну HTML-страницу, которую я могу распечатать или отправить на мой Kindle.
Я думаю об использовании Hpricot, но не совсем уверен, как действовать.
Как мне настроить его так, чтобы он рекурсивно проверял каждую ссылку, получал HTML, либо сохранял ее в переменной, либо выводил ее на главную страницу HTML, а затем возвращался к оглавлению и продолжал это делать?
Вам не нужно ТОЧНО указывать мне, как это сделать, а только теорию, по которой я мог бы подойти к этому.
Должен ли я в буквальном смысле посмотреть на источник одной из статей (которая КРАЙНЕ ужасно кстати), например view-source: http://boxerbiography.blogspot.com/2006/12/10-progamer-lim-yohwan-e-sports-icon.html и вручную запрограммировать скрипт для извлечения текста между определенными тегами (например, h3, p и т. д.)?
Если я сделаю такой подход, то мне придется посмотреть на каждый отдельный источник для каждой главы / статьи, а затем сделать это. Кинда побеждает цель написания сценария, не так ли?
В идеале я хотел бы сценарий, который сможет отличить JS от другого кода и просто «текст» и вывести его (отформатированный с соответствующими заголовками и тому подобное).
Был бы очень признателен за руководство.
Спасибо.