Python XMl Parser с BeautifulSoup.Как мне удалить метки? - PullRequest
1 голос
/ 17 июля 2011

Для проекта я решил создать приложение, которое поможет людям находить друзей в Twitter.

Мне удалось получить имена пользователей со страниц XML.Так, например, с моим текущим кодом я могу получить <uri>http://twitter.com/username</uri> со страницы XML, но я хочу удалить теги <uri> и </uri>, используя Beautiful Soup .

Вотмой текущий код:

import urllib
import BeautifulSoup

doc = urllib.urlopen("http://search.twitter.com/search.atom?q=travel").read()

soup = BeautifulStoneSoup(''.join(doc))
data = soup.findAll("uri")

Ответы [ 2 ]

1 голос
/ 17 июля 2011

Не используйте BeautifulSoup для анализа твиттера, используйте их API (также не используйте BeautifulSoup, используйте lxml ). Чтобы ответить на ваш вопрос:

import urllib
from BeautifulSoup import BeautifulSoup

resp = urllib.urlopen("http://search.twitter.com/search.atom?q=travel")
soup = BeautifulSoup(resp.read())
for uri in soup.findAll('uri'):
    uri.extract()
0 голосов
/ 17 июля 2011

Чтобы ответить на ваш вопрос о BeautifulSoup, text - это то, что вам нужно, чтобы получить содержимое каждого тега <uri>.Здесь я извлекаю информацию для понимания списка:

>>> uris = [uri.text for uri in soup.findAll('uri')]
>>> len(uris)
15
>>> print uris[0]
http://twitter.com/MarieJeppesen

Но, , как говорит Zeekay , REST API Twitter - лучший подход для запросов к Twitter.*

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...