Очень трудно придумать правило, которое работает 100% времени, очевидно, но я бы предложил в качестве отправной точки искать первый тег <h1>
(или <h2>
, <h3>
,и т. д. - самое высокое значение, которое вы можете найти), затем бит текста после , который можно использовать в качестве описания.Пока сайт семантически размечен, это должно дать вам хорошее описание (я думаю, вы также можете взять содержимое самого <h1>
, но это больше похоже на "заголовок").
Интересно отметить, что Google (например) использует специфическое для ключевого слова извлечение содержимого страницы для отображения в качестве описания, а не статического описания.Не уверен, что это сработает для вашей ситуации.