Один из подходов состоит в сравнении структуры нескольких веб-страниц, которые используют один и тот же шаблон.В этом случае вы бы сравнили несколько вопросов SO.Затем вы можете определить, какой контент является статическим (бесполезным) или динамическим (полезным).
Это поле известно как индуктор оболочки .К сожалению, это сложнее, чем кажется!