Если вам нужно выполнить классификацию по содержанию страниц, я бы посоветовал вам взглянуть на NLTK (http://www.nltk.org/), инструментарий естественного языка для модулей с открытым исходным кодом.
Не пытайтесь просто попробоватьдля просмотра случаев, например, «отчет» на страницах. Отчет может содержать или не содержать «отчет» в качестве заголовка или содержания. Вы можете использовать NLTK, чтобы найти термины, связанные с вашими ключевыми словами (например, показатели успешности и одобрения).оценки) или из того же семейства (например, описание и описание).
Посмотрите на содержимое страниц и попытайтесь определить, что отличает их от других. Например, страница с комментариямивероятно, есть такие выражения, как «я думаю, что», «на мой взгляд» и субъективные термины, обычно прилагательные и наречия, такие как «хорошо», «быстро», «ужасно» и т. д. В отчете вряд ли есть такие слова.
Помимо содержимого, структура страницы может варьироваться от категории к категории. Если вы собираетесь проанализировать это, возможно, используйте Beautiful Soup (http://www.crummy.com/software/BeautifulSoup/) для номиналапеть - хорошая идея.