Язык R - удаление данных из исходного кода URL - PullRequest
0 голосов
/ 04 октября 2018

Я хочу извлечь одну конкретную информацию из исходного кода из списка URL.Давайте рассмотрим пример с один URL .
. В исходном коде я хочу извлечь слова после pfDataConfig.page.section, в данном случае это hotels.geo.city.US.united-states.14652.los-angeles, как вы можете видеть на картинке: enter image description here

Я попробовал несколько вещей, используя пакет rvest, но без убедительных результатов.Пожалуйста, есть ли у вас какие-либо советы о том, как найти решение?

Большое вам спасибо.

1 Ответ

0 голосов
/ 05 октября 2018

Просто импортируйте построчно и делайте grep.

# Reading line by line
mylines <- readLines("/path/to/file")

# Finding target line(s)
mytargetline <- mylines[grepl("pfDataConfig.page.section", mylines)]

# Stringsplit by "=" and extracting second element
mytarget <- unlist(strsplit(mytargetline, "="))[2]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...