Как я могу управлять Firefox из R для обработки AJAX / Javascripts - PullRequest
4 голосов
/ 26 октября 2011

Я пытаюсь найти способ управления браузером (предпочтительно Firefox) с помощью R-скриптов, чтобы получать информацию, контролируемую AJAX / Javascripts на веб-сайтах.Например, как я могу получить значения в поле «Modell» в http://www.mobile.de/home/index.html?

AFAIU, пакет Гейба Беккера «RFirefox» действительно обеспечивает какую-то связь между R и Firefox.Но, будучи Windows-Kid (не по убеждению, а с давними сетевыми эффектами ;-)), я сам пока не смог попробовать, поэтому не уверен, что он сможет сделать то, что мне нужно.

Итак: есть ли кто-нибудь, кто уже имел опыт работы с RFirefox или обработкой AJAX через R?Не хочу, чтобы вы делали мою домашнюю работу, но прежде чем окунуться в мир Linux, я бы хотел оценить, стоит ли это того.

Тем не менее, любые примеры кода будут с благодарностью.; -)

1 Ответ

3 голосов
/ 26 октября 2011

Мне непонятно, зачем вам нужен браузер для этого.Это просто соскоб сети;Конечно, для этого потребуется какой-то парсер, но не обязательно браузер.Я думаю, что RFirefox может лаять не на то дерево.Если вы хотите поиграть с соединениями Javascript + R, взгляните на SpiderMonkey .

Дункана Темпл Ланга. Тем не менее, я думаю, что лучше собирать данные с более серьезным сканированием /Средство очистки, подходящее для работы с Javascript. Этот вопрос по SO , кажется, особенно соответствует этому.Я бы порекомендовал получить инструмент, который делает то, что вам нужно, а затем связать его с R на самом простом возможном уровне.У Webkit есть привязки к нескольким языкам, хотя, похоже, это не относится к R.

Этот вопрос еще более точно касается вашей ситуации: он также относится и к Windows.Он не использует Webkit.Три предложения в принятом ответе относятся к доступу к инструментам, написанным на C / C ++, из Python.R имеет интерфейсы для обоих, поэтому вам может быть проще написать некоторые вещи для работы с ними и передавать объекты и инструкции между R и Python или C / C ++.

...