Итак, ты хочешь стать новым Google, а? : -)
В наши дни многие сайты «оптимизированы для SEO». Это позволяет вам перейти к заголовкам, а затем искать абзацы ниже.
Также ищите списки. В некоторых интерфейсах в виде вкладок (табы, аккордеоны ...) много контента, что делается с помощью упорядоченных или неупорядоченных списков.
Если это не удастся, возможно, найдите div с классом "content" или "main" или их комбинацией и начните с этого.
Если вы используете разные подходы, убедитесь, что вы ведете статистику того, что сработало, а что нет (возможно, даже сохранили всю страницу), чтобы вы могли просматривать и настраивать методы анализа и поиска.
В качестве примечания я использовал htmlagilitypack для успешного анализа и поиска в html. Ну, по крайней мере, это лучше, чем анализ с регулярным выражением: -)