Классификация сайтов - PullRequest
       5

Классификация сайтов

2 голосов
/ 01 марта 2011

Мне нужно очистить тысячу веб-сайтов, которые имеют одинаковую структуру: у всех них есть меню, заголовок, текст и рейтинг, как в блоге. К сожалению, они также кодируются совершенно по-разному, а некоторые - вручную, поэтому я не могу повторно использовать селекторы CSS и, возможно, даже не полагаюсь на них.

Интересно, как я могу автоматически классифицировать их и сохранить то, что осталось от моих волос. Мое первое предположение состоит в том, чтобы использовать lynx или что-то еще в текстовом браузере, чтобы получить некоторые блоки текста и классифицировать их в соответствии с их размером.

Знаете ли вы о лучшем или более сложном подходе?

Спасибо!

Ответы [ 2 ]

6 голосов
/ 01 марта 2011

Посмотрите на http://code.google.com/p/boilerpipe/, чтобы разобрать страницы.

Для классификации, возможно, посмотрите на mahout.apache.org.

2 голосов
/ 01 марта 2011

Я предлагаю разделить проблему на две основные части.

Запишите классификационную часть так, как если бы все веб-сайты были закодированы одинаково, с одинаковой структурой.

Затем напишитескребущая часть, чтобы найти фактическую структуру каждого веб-сайта и сопоставить эту структуру с вашей идеальной структурой из классификационной части.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...