Я хотел бы почистить несколько разных дискуссионных форумов, большинство из которых имеют разные форматы HTML. Вместо того, чтобы разбирать HTML для каждой страницы, было бы более эффективно (и интересно) реализовать своего рода алгоритм обучения, который мог бы идентифицировать различные сообщения (то есть структуры) на каждой странице, и индивидуально анализировать их, одновременно игнорируя всю постороннюю чушь (т.е. реклама и прочая ерунда). Может кто-нибудь указать мне некоторые ссылки или примеры кода для работы, которая уже была выполнена в этой области.
Кроме того, кто-нибудь знает о псевдокоде для кода читабельности Arc90?
http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/