Не могу определить soup.find_all для очистки - PullRequest
0 голосов
/ 06 мая 2019

Требуется помощь в определении правильного HTML-кода для просмотра веб-страниц.

У меня есть .csv с 1000+ URL для меню ресторана с того же сайта, и мне нужно добавить дополнительные столбцы с информацией для каждого ресторана. Проблема в том, что мне нужно только часть меню. Это выбор из моего списка списков:

['subdomain', 'name', 'url']
['https://www.pedidosya.com.ar/restaurantes/buenos-aires/recoleta/empanadas-delivery?bt=RESTAURANT&page=1', 'Cümen-Cümen Empanadas Palermo', 'https://www.pedidosya.com.ar/restaurantes/buenos-aires/cumen-cumen-empanadas-palermo-menu']
['https://www.pedidosya.com.ar/restaurantes/buenos-aires/recoleta/empanadas-delivery?bt=RESTAURANT&page=1', 'El Maitén Empanadas - Al horno o fritas', 'https://www.pedidosya.com.ar/restaurantes/buenos-aires/el-maiten-empanadas-al-horno-o-fritas-menu'] 

Так что мне нужно просмотреть каждый URL-адрес в поисках:

а) Информация в:

<span class="new_rating box_split_review_04">4.9</span>

Так что в этом примере это рейтинг = 4.9.

б) Мне также нужен каждый пункт меню с "empanada" в названии. Проблема в том, что в некоторые меню добавлены дополнительные вещи, такие как: Empanadas al horno, Empanadas fritas и т. Д. Что мне нужно, так это цена каждого типа эмпанада:

<div class="price">
<span class="discounted-price">$49,99</span>
<span class="has-discount">$62,49</span>
</div>

Таким образом, вывод должен быть примерно таким: (сохранен как .CSV)

['subdomain', 'name', 'url', 'rating', 'empanada_price']
['https://www.pedidosya.com.ar/restaurantes/buenos-aires/recoleta/empanadas-delivery?bt=RESTAURANT&page=1', 'Cümen-Cümen Empanadas Palermo', 'https://www.pedidosya.com.ar/restaurantes/buenos-aires/cumen-cumen-empanadas-palermo-menu', '4,9', '$49,99']

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...