У меня есть небольшой скрипт, который использует urllib2
для получения содержимого сайта, поиска всех тегов ссылок, добавления небольшого фрагмента HTML вверху и внизу, а затем я пытаюсь его предварительно оптимизировать. Он продолжает возвращать TypeError: элемент последовательности 1: ожидаемая строка, тег найден. Я посмотрел вокруг, я не могу найти проблему. Как всегда, любая помощь, высоко ценится.
import urllib2
from BeautifulSoup import BeautifulSoup
import re
reddit = 'http://www.reddit.com'
pre = '<html><head><title>Page title</title></head>'
post = '</html>'
site = urllib2.urlopen(reddit)
html=site.read()
soup = BeautifulSoup(html)
tags = soup.findAll('a')
tags.insert(0,pre)
tags.append(post)
soup1 = BeautifulSoup(''.join(tags))
print soup1.prettify()
Это трассировка назад:
Traceback (most recent call last): File "C:\Python26\bea.py", line 21, in <module>
soup1 = BeautifulSoup(''.join(tags))
TypeError: sequence item 1: expected string, Tag found