R webscraping несколько таблиц со страницы - PullRequest
1 голос
/ 14 марта 2012

Я пытаюсь создать 5 таблиц на странице: www.lme.com/copper.asp

Я могу создать общий вид всей страницы, но у меня возникают проблемы при копировании таблиц в надлежащие рамки данных без форматирования HTML.

library(XML)
lme.cu <- readHTMLTable('http://www.lme.com/copper.asp',stringsAsFactors = FALSE)

Буду признателен за вашу помощь.

1 Ответ

1 голос
/ 15 марта 2012

Для этого обычно требуется реквекс.Извините, но это часть искусства царапанья.Мои две любимые функции, связанные с регулярным выражением, для очистки / очистки: gsub и strsplit, например:

gsub("Â", "", "edsÂedfde", fixed=TRUE)
strsplit("e/d/sÂedfde", "Â", fixed=TRUE)[[1]][2]

Запятые в ваших числах также должны быть удалены, если вы хотите, чтобы данныебыть числовым.

РЕДАКТИРОВАТЬ: Я также предлагаю вам ознакомиться с работой моего друга Брайана по анализу HTML-данных здесь (ССЫЛКА) .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...