Я пытаюсь почистить время молитвы с веб-сайта www.hujjat.org.
Вот html-часть интересующей меня области (как вы могли заметить, атрибут класса одинаков для всех 4 молитв):
<table width="100%">
<tbody>
<tr>
<td class="NamaazTimes">
<div class="NamaazTimeName">Fajr</div>
<div class="NamaazTime">04:42</div>
</td>
<td class="NamaazTimes">
<div class="NamaazTimeName">Sunrise</div>
<div class="NamaazTime">06:32</div>
</td>
<td class="NamaazTimes">
<div class="NamaazTimeName">Zohr</div>
<div class="NamaazTime">13:02</div>
</td>
<td class="NamaazTimes">
<div class="NamaazTimeName">Maghrib</div>
<div class="NamaazTime">19:33</div>
</td>
</tr>
</tbody>
</table>
Пока у меня естьнаписал следующий код:
# import libraries
import json
import urllib2
from bs4 import BeautifulSoup
# specify the url
quote_page = 'http://www.hujjat.org/'
# query the website and return the html to the variable 'page'
page = urllib2.urlopen(quote_page)
# parse the html using beautiful soap and store in variable 'soup'
soup = BeautifulSoup(page, 'html.parser')
table = soup.find("div",class_="NamaazTimeName", text="Fajr").find_previous("table")
for row in table.find_all("tr"):
a = row.find_all("td")
# print(row.find_all("td"))
print (a)
И мой результат:
[<td class="NamaazTimes">\n<div class="NamaazTimeName">Fajr</div>\n<div class="NamaazTime">04:42</div>\n</td>, <td class="NamaazTimes">\n<div class="NamaazTimeName">Sunrise</div>\n<div class="NamaazTime">06:32</div>\n</td>, <td class="NamaazTimes">\n<div class="NamaazTimeName">Zohr</div>\n<div class="NamaazTime">13:02</div>\n</td>, <td class="NamaazTimes">\n<div class="NamaazTimeName">Maghrib</div>\n<div class="NamaazTime">19:33</div>\n</td>]
То, что я хочу из своего кода, это просто время для каждой молитвы, например, если это «Фаджр»тогда молитва должна быть «04:42».Затем я хочу сохранить это "04:42" в текстовом файле.
Может кто-нибудь помочь мне, пожалуйста?
Спасибо.