Что такое xpath для следующей ситуации
Я пытаюсь получить ту часть, в которой он находится:
"Here is my text that I would like to get out of this. Bla Bla..."
Как вы можете видеть далее в HTML-коде, этот текстнаходится в самом конце -tag
Я пытался:
xpath = "/article()[last()]"
Но это не сработало!
Я пытался:
xpath = "//*[contains(@itemtype, 'http://schema.org/Article')]"
Но это тоже не сработало ...
Наверное, проблема в том, что в HTML-коде есть другие теги или я вообще что-то делаю не так ...
Вот HTML-код:
<div class="cbox"><article class="cf" itemscope itemtype="http://schema.org/Article">
<header>
<h1 itemprop="headline">Anzündhilfen: So bringen Sie die Kohle zur Weissglut</h1>
<em class="date">
<span class="my-color" itemprop="publisher">MyMagzine</span> 09/2018 vom <time datetime="2018-05-08" itemprop="datePublished">8. Mai 2018</time> | aktualisiert am <time datetime="2018-05-11" itemprop="dateModified">11. Mai 2018</time> </em>
<p>
von <span itemprop='author'>My Author</span> </p>
</header>
<p class="lead">Eine perfekte Glut ohne Rauch und Gestank bringen nur sogenannte Anzündkamine zustande. Aber zwei solche Produkte sind unsicher. </p>
<figure class="image-box cf" itemscope itemtype="http://schema.org/ImageObject">
<img src="/image/?m=Artikel&rid=1113094&attr=bild&thumb=thumb_yRsBeq_resize_300_200.png" alt="Funken sprühen (Bild: CHRISTIAN BIRMELE)" itemprop="contentUrl">
<figcaption>
<p itemprop="description">Funken sprühen (Bild: CHRISTIAN BIRMELE)</p>
</figcaption>
</figure>
Here is my text that I would like to get out of this. Bla Bla Bla Bla Bla Bla
Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla
Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla
Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla
Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla Bla.
<br /> <br />My Magazine has this title inbetween
<br /> <br />Here is more text I also want to get our of this. [...]</p>
</article>