Как мне разобрать сложный элемент в Cheerio - PullRequest
0 голосов
/ 13 сентября 2018

Я использую библиотеку cheerio в качестве скребка в моем проекте nodejs. Я хочу разобрать следующую структуру:

<li class="sub menu-category-main">
  <p>
    <span class="price">$16.00</span>
    ZESTAW DNIA + ZUPA								
  </p>
</li>
<li class=" ">
  <p>
    <span class="price">$12.00</span>
    <img class="allergens" title="Vegerarian" src="/new_site/img/vegetarian_.png">
    NALEŚNIKI AMERYKAŃSKIE Z SOSEM OWOCOWYM
    <br>
    american pancakes with fruit sauce
  </p>
</li>
<li class=" ">
  <p>
    <span class="price">$11.00</span>
    <img class="allergens" title="lactose free" src="/new_site/img/lactose_.png">
    <img class="allergens" title="gluten free" src="/new_site/img/gluten_.png">
    <img class="allergens" title="Vegerarian" src="/new_site/img/vegetarian_.png">
    LECZO WEGETARIAŃSKIE
    <br>
    vegetables lecho
  </p>
</li>

Как я могу разобрать этот HTML, чтобы я мог иметь цену, имя и список изображений? В конце я хочу создать объект JSON для повторного использования данных (я знаю, как построить JSON, просто есть проблемы с анализом выше HTML).

Вы можете заметить, что есть названия на английском и польском языках. Я заинтересован в последовательности на польском языке. Также обратите внимание, что структура этого документа очень нерегулярна (не соответствует).

Я также хочу добавить, что создание .text () из "p" не дает мне результатов, которые мне нравятся.

...