Python вызывает несколько URL-адресов и извлекает из них данные - PullRequest
0 голосов
/ 29 июля 2011

Я пытаюсь написать сценарий, который будет вызывать веб-страницу (http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Tree&id=7742&lvl=3&lin=f&keep=1&srchmode=1&unlock), сканировать ее, а затем извлекать порядки, семейства, роды и виды в каждой вложенной таксономической группе. Однако я хочу только позвоночных (очень маленький раздел всего веб-сайта), но URL-адреса, связанные с различными таксонами позвоночных, не имеют какого-либо различимого образца (то есть последовательного). Есть ли способ сделать это разумным? У меня было много проблем, пытаясь сформулировать различные способы достижения этой цели.

1 Ответ

0 голосов
/ 29 июля 2011

Не совсем ясно (по крайней мере, для меня), что именно вы хотите сделать, но, насколько я понял, вам нужно создать какой-то сканер, который будет искать ссылки на страницах, перемещаться по сайту.и классифицировать их?

Если это так, перейдите на mechanize , который позволяет вам эмулировать веб-браузер и перемещаться по сайту, легко извлекать и переходить по ссылкам, отправлять формы и т. д. и т. д. и т. д..

...