извлечение информации об узле - PullRequest
1 голос
/ 03 марта 2012

Используя библиотеку XML, я проанализировал веб-страницу

basicInfo <- htmlParse(myURL, isURL = TRUE)

, соответствующий раздел которой

<div class="col-left"><h1 class="tourney-name">Price Cutter Charity Championship Pres'd         by Dr Pep</h1><img class="tour-logo" alt="Nationwide Tour" src="http://a.espncdn.com/i/golf/leaderboard11/logo-nationwide-tour.png"/></div>

Мне удалось извлечь название турнира

tourney <- xpathSApply(basicInfo, "//*/div[@class='col-left']", xmlValue)

, но также хотелось бы узнать, какой тур он использует, используя тег alt.В этом случае я хочу получить результат «Общенациональный тур»

TIA и извинения за прокрутку требуется

1 Ответ

3 голосов
/ 03 марта 2012

Не знаю R, но я неплохо разбираюсь в XPath

Попробуйте это:

tourney_name <- xpathSApply(basicInfo, "//*/div[@class='col-left']/h1/text()", xmlValue)
tourney_loc <- xpathSApply(basicInfo, "//*/div[@class='col-left']/img/@alt", xmlValue)

Обратите внимание на использование «@» для извлечения атрибутов и text () для извлечения текстовых узлов (похоже, R сделал это автоматически), мой пересмотренный xpath tourney_name должен делать то же самое, но более понятно, какая часть извлекается .

...