Как получить первый элемент, имеющий внутренний текст (простой текст, исключающий другие дочерние элементы) длиной 200 или более символов?
Я пытаюсь создать HTML-анализатор, такой как Embed.ly , и я настроил систему откатов, где я сначала проверяю на og:description
, затем я буду искать это вхождение и только затем для метатега description
.
Это потому, что большинство сайтов, которые даже включают meta description
, описывают свой сайт в этом теге вместо содержимого текущей страницы.
Пример:
<html>
<body>
<div>some characters
<p>200 characters <span>some more stuff</span></p>
</div>
</body>
</html>
Какой селектор я мог бы использовать, чтобы получить 200 символов часть этого фрагмента HTML? Я не хочу еще кое-что , мне все равно, что это за элемент (кроме <script>
или <style>
), если это первый простой текст, который содержит по крайней мере 200 символов.
Как должен выглядеть запрос XPath?