В настоящее время я работаю над созданием скрипта Python, который позволяет пользователю вводить хеш торрента (через терминал) и проверяет наличие дополнительных трекеров через веб-сайт. Тем не менее, я в растерянности и надеялся получить несколько советов, так как я новичок в программировании на Python. Я столкнулся с проблемой, так как мой результат с html_page имеет другую ссылку для перехода. Итак, моя программа назначает html_page "http://torrentz.eu/*******, но теперь я пытаюсь заставить ее перейти по другой ссылке на странице, чтобы получить http://torrentz.eu/announcelist_* ... при этом я обнаружил, что ее можно получить (как видно из просмотра источника)
<a href="/announcelist_********" rel="e">µTorrent compatible list here</a>
или, возможно, извлечено отсюда, поскольку значения такие же, как и в / announcecelist_ **
<a name="post-comment"></a>
<input type="hidden" name="torrent" value="******" />
Так как / announcecelist_ ** появляется в текстовом формате, мне также было интересно, как я могу сохранить полученный список трекеров в текстовом файле .txt. Тем не менее, на данный момент это мой прогресс в написании скриптов на Python.
from BeautifulSoup import BeautifulSoup
import urllib2
import re
var = raw_input("Enter hash:")
html_page = urllib2.urlopen("http://torrentz.eu/" +var)
soup = BeautifulSoup(html_page)
for link in soup.findAll('a'):
print link.get('href')
Я также хотел бы заранее поблагодарить всех вас за поддержку, знания, советы и навыки.
Редактировать: я изменил код, чтобы он выглядел следующим образом:
from BeautifulSoup import BeautifulSoup
import urllib2
import re
hsh = raw_input("Enter Hash:")
html_data = urllib2.urlopen("http://torrentz.eu/" +hsh, 'r').read()
soup = BeautifulSoup(html_data)
announce = soup.find('a', attrs={'href': re.compile("^/announcelist")})
print announce
Что приводит к:
<a href="/announcelist_00000" rel="e">µTorrent compatible list here</a>
Итак, теперь я просто ищу способ получить только часть вывода / announcecelist_00000 .