Я использую библиотеку cheerio в качестве скребка в моем проекте nodejs. Я хочу разобрать следующую структуру:
<li class="sub menu-category-main">
<p>
<span class="price">$16.00</span>
ZESTAW DNIA + ZUPA
</p>
</li>
<li class=" ">
<p>
<span class="price">$12.00</span>
<img class="allergens" title="Vegerarian" src="/new_site/img/vegetarian_.png">
NALEŚNIKI AMERYKAŃSKIE Z SOSEM OWOCOWYM
<br>
american pancakes with fruit sauce
</p>
</li>
<li class=" ">
<p>
<span class="price">$11.00</span>
<img class="allergens" title="lactose free" src="/new_site/img/lactose_.png">
<img class="allergens" title="gluten free" src="/new_site/img/gluten_.png">
<img class="allergens" title="Vegerarian" src="/new_site/img/vegetarian_.png">
LECZO WEGETARIAŃSKIE
<br>
vegetables lecho
</p>
</li>
Как я могу разобрать этот HTML, чтобы я мог иметь цену, имя и список изображений? В конце я хочу создать объект JSON для повторного использования данных (я знаю, как построить JSON, просто есть проблемы с анализом выше HTML).
Вы можете заметить, что есть названия на английском и польском языках. Я заинтересован в последовательности на польском языке. Также обратите внимание, что структура этого документа очень нерегулярна (не соответствует).
Я также хочу добавить, что создание .text () из "p" не дает мне результатов, которые мне нравятся.