Мне нужно очистить тысячу веб-сайтов, которые имеют одинаковую структуру: у всех них есть меню, заголовок, текст и рейтинг, как в блоге. К сожалению, они также кодируются совершенно по-разному, а некоторые - вручную, поэтому я не могу повторно использовать селекторы CSS и, возможно, даже не полагаюсь на них.
Интересно, как я могу автоматически классифицировать их и сохранить то, что осталось от моих волос. Мое первое предположение состоит в том, чтобы использовать lynx или что-то еще в текстовом браузере, чтобы получить некоторые блоки текста и классифицировать их в соответствии с их размером.
Знаете ли вы о лучшем или более сложном подходе?
Спасибо!