Если вы можете предполагать содержание на английском языке, вы можете сначала поискать мета-описание, а если это не сработает, вы можете найти первые две или три последовательности слов в виде предложений.
Продукт, над которым я работал, искал первый P или DIV, который содержал более одной последовательности> n «слов», разделенных точками. В качестве итогового абзаца он будет использовать две-три последовательности, похожие на предложения, до х слов. Это не было на 100% точно, но достаточно хорошо для среднего случая. Количество слов было изменено несколько раз, чтобы исключить такие элементы, как элементы навигации.