паутина скребет стол с R - PullRequest
1 голос
/ 15 мая 2019

Я пытаюсь вычистить таблицу из веб-сайта Pitch Book. Но использование простого HTML не работает, потому что для загрузки данных pitch book использует java-скрипт вместо HTML, поэтому мне нужно выполнить JS, чтобы извлечь информацию из файла json. это мой код:

    library(httr)
    library(jsonlite)
    library(magrittr)  
    json=get("https://my.pitchbook.com/old/ 
    homeContent.64ea0536fd321cc1dd3b.js") %>% 
    content(as='text') %>% 
    fromJSON()

я получаю эту ошибку:

    Error in 
   get("https://my.pitchbook.com/old/homeContent.64ea0536fd321cc1dd3b.js") 
    : 
     object 
  'https://my.pitchbook.com/old/homeContent.64ea0536fd321cc1dd3b.js'
   not found

все данные, которые я пытаюсь загрузить, возвращают ту же ошибку. был бы признателен за вашу помощь :) спасибо :) 1007 *

1 Ответ

0 голосов
/ 15 мая 2019

Вы позвонили base::get, а не httr::GET. Так и должно быть

library(httr)
library(jsonlite)
library(magrittr)  
json <- GET(
  "https://my.pitchbook.com/old/homeContent.64ea0536fd321cc1dd3b.js"
) %>% 
  content("text") %>% 
  fromJSON()

но я не совсем уверен, что URL вашего сайта дает правильный JSON. Это само по себе даст

лексическая ошибка: неверный символ в тексте json.

...