У меня есть текст в формате (сохранение тегов и удаление текста для понимания)
<h2>...</h2>
<p>...</p>
. .
. .
<p>...</p>
<h2>...</h2>
<ul>...</ul>
<li> .. </li>
...
<h2>...</h2>
<li> ..</li>
Я пытаюсь использовать scrapy для разделения / группировки текста на основев шапке.Поэтому в качестве первого шага мне нужно получить 3 группы данных из приведенного выше.
from scrapy import Selector
sentence = "above text in the format"
sel = Selector(text = sentence)
// item = sel.xpath("//h2//text())
item = sel.xpath("//h2/following-sibling::li/ul/p//text()").extract()
Я получаю пустой массив.Любая помощь приветствуется.