Если вы не хотите использовать описания метаданных (кстати, это именно то, для чего они нужны), у вас есть много исследований и работы, которую нужно сделать. По сути, вы должны угадать, какая часть страницы является содержимым, а какая - просто навигацией. Действительно, у Google есть именно это; заметьте, однако, что извлечение ценной информации из бесполезного пуха является их компетенцией № 1, и они исследуют и улучшают ее в течение десятилетия.
Конечно, вы можете сделать обоснованное предположение (например, «найти элемент с идентификатором или классом maincontent
» и получить из него первый абзац), и, возможно, все будет в порядке. На самом деле вопрос в том, насколько хороши результаты. (В Facebook есть что-то похожее для ссылок на веб-сайты, иногда в сводке просто утверждается, что основным контентом является реклама).