Извлечение информации Vcard - R соскоб - PullRequest
0 голосов
/ 23 октября 2018

Есть ли способ извлечь данные из vcard, используя R?Я перебираю несколько веб-сайтов, один из которых - https://www.cwlaw.com/attorneys.

Мне нужно собрать информацию с vcard - по электронной почте.

Ответы [ 2 ]

0 голосов
/ 23 октября 2018

Это для извлечения hrefs, которые имеют "mailto" и удаления его с помощью gsub.

 gsub("mailto:", "",grep("mailto:", read_html("https://www.cwlaw.com/attorneys")%>% html_nodes("a")%>% html_attr("href"), value= T))
0 голосов
/ 23 октября 2018

Вот один простой способ извлечь адрес электронной почты из vcard.

Этот подход использует CURL для загрузки карты, grep для поиска строки со строкой EMAIL и, наконец, stringr :: str_split для захвата соответствующей части строки.

library(curl)
library(stringr)

con <- curl('https://www.cwlaw.com/vcard-82.vcf', open='')
card <- readLines(con)
str_split(grep('EMAIL', card, value=TRUE), 'CP1252:')[[1]][2]
...