Мой нынешний работодатель разработал систему для классификации веб-страниц. Не было никаких полезных библиотек, которые мы могли бы найти, поэтому мы должны были сделать свои собственные. Мы не лицензируем наши.
Я могу дать вам несколько советов. Анализаторы спама классифицируют электронную почту как нежелательную или нежелательную. Вы можете использовать те же инструменты, что и байесовский, CRM-114 и т. Д., Чтобы самостоятельно классифицировать любой текст, включая веб-страницы.
Вам нужно будет очень внимательно следить за их результатами и дать им лот отзывов людей. Вы часто можете найти наборы ключевых слов, которые будут очень хорошо для вас. Поиск этих наборов ключевых слов потребует времени и усилий, а со временем и изменится.
Вам придется написать код, чтобы разделить веб-страницы на разделы тем, потому что большинство страниц - это не все. Есть рекламные рамки, навигация и прочее.