получение конечного тега html между тегами таблицы tr при использовании красивого супа для очистки в python - PullRequest
0 голосов
/ 10 февраля 2020

Я пытаюсь получить данные из источника страницы html, мои обязательные данные находятся под табличным тегом, в котором есть список тегов tr. Я не могу l oop через теги tr, и когда я печатаю soup.prettify, я получаю результат ниже, который имеет html конец тега в середине.

from bs4 import BeautifulSoup
from urllib import request
main_url = "https://www.ugc.ac.in/" 
link = "stateuniversitylist.aspx?id=1&Unitype=2"   
state_src = request.urlopen(main_url+link)
state_soup = BeautifulSoup(state_src, "html.parser")
# univ_table = state_soup.table
# out = univ_table.find_all("tr")
print(state_soup.prettify)

вывод в первую очередь таблицы тег tr, хотя после этого есть другие теги tr html code

<tr>
<td>
<div class="panel panel-default">
<div class="panel-body">
<div class="col-md-12">
<font color="#006699"><b>
                                Acharaya N.G.Ranga Agricultural University</b></font><br/>
<a href="http://www.angrau.ac.in">
                                http://www.angrau.ac.in</a><br>
<div class="box100">
<font color="#006699">Address:
                                </font>
</div>
<div class="box200">
                                Lam, Gantur<br/>
</div>
<div class="clear">
</div>
<div class="box100">
<font color="#006699">State:</font></div>
<div class="box200">
                                Andhra Pradesh
                                -
                                522034
                            </div>
</br></div>
<div class="col-md-12">
<div class="panel-heading">
<h4 class="panel-title">
<i aria-hidden="true" class="fa fa-plus-square orange-text"></i><a data-toggle="collapse" href="#collapse10"> View More</a>
</h4>
</div>
<div class="panel-collapse collapse" id="collapse10">
<div class="panel-body">
<div id="ctl00_bps_homeCPH_dluniversity_ctl02_UpdatePanel1">
<ul class="nav nav-pills">
<li class="active" style="font-size: 12px; border: 1px solid;"><a data-toggle="tab" href="#menu10">Student Enrolment Details</a></li>
<li style="font-size: 12px; border: 1px solid;"><a data-toggle="tab" href="#menu20">Faculty Details</a></li>
<li style="font-size: 12px; border: 1px solid;"><a data-toggle="tab" href="#menu30">M.Phils and Ph.Ds Awarded</a></li>
<li style="font-size: 12px; border: 1px solid;"><a data-toggle="tab" href="#menu40">Grant Allocation Details</a></li>
<li style="font-size: 12px; border: 1px solid;"><a data-toggle="tab" href="#menu50">More</a></li>
</ul>
<div class="tab-content">
<div class="tab-pane fade in active" id="menu10">
<iframe frameborder="0" id="myFrame" src="uni_stuinfo.aspx?id=185" width="100%">
</iframe>
</div>
<div class="tab-pane fade" id="menu20">
<iframe frameborder="0" id="myFrame" src="uni_faculty.aspx?id=185" width="100%">
</iframe>
</div>
<div class="tab-pane fade" id="menu30">
<iframe frameborder="0" id="myFrame" src="uni_phd.aspx?id=185" width="100%">
</iframe>
</div>
<div class="tab-pane fade" id="menu40">
<iframe frameborder="0" id="myFrame" src="uni_grantinfo.aspx?id=185" width="100%">
</iframe>
</div>
<div class="tab-pane fade" id="menu50">
<iframe frameborder="0" id="myFrame" src="uni_contactinfo.aspx?id=185" width="100%"></iframe>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</td></tr></table></div>
</div></div></div></div></div></div></div></form></body></html>
<tr>

1 Ответ

0 голосов
/ 11 февраля 2020

Пожалуйста, попробуйте изменить ваш парсер на l xml, если кто-либо из вас обнаружит эту проблему. Прекрасный суп имеет дополнительный до фактического окончания

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...