с win32com python и проблемой разбора HTML - PullRequest
0 голосов
/ 25 октября 2009

Я новичок в питоне. Я хочу извлечь некоторый текст с веб-сайта CNN.
Я хочу использовать модуль python win32com.
РЕДАКТИРОВАТЬ : включено [почему win32com]
Из-за JavaScript на веб-сайте ... Я подумал об использовании win32com; Я искал другое решение, но безуспешно в отношении моего требования. На самом деле, я хотел использовать механизированное или похожее решение, но это не сработало [для меня].

Можно ли использовать Beautifulsoup или lxml с win32com ?
Любой, кто знает, как извлечь текст из cnn webiste, пожалуйста, помогите мне! В частности, я хочу извлечь текст на веб-сайте cnn из ' Рекламные ссылки ' ' Деньги '

import win32com.client
from time import sleep
from win32com.client import Dispatch
import urllib,urllib2
from BeautifulSoup import BeautifulSoup

ie = Dispatch("InternetExplorer.Application")   
ie.Visible = 1   
ie.Navigate("http://www.cnn.com") 
sleep(15)
ie.Quit()

1 Ответ

1 голос
/ 25 октября 2009

Вы пытаетесь разобрать текст на веб-сайте cnn?

Вы можете получить страницу с

import urllib
f = urllib.urlopen('http://www.cnn.com')
page = f.read()
f.close()

Затем вы можете использовать BeautifulSoup, чтобы найти на странице все, что вы ищете.

Почему win32com, рассылка и т.д.?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...