Извлечение полного текста статьи через пакет newsanchor [в R] - PullRequest
2 голосов
/ 21 мая 2019

Я использую пакет newsanchor в R, чтобы попытаться извлечь весь контент статьи через NewsAPI.На данный момент я сделал следующее:

require(newsanchor)
results <- get_everything(query = "Trump +Trade", language = "en")
test <- results$results_df

Это дает мне информационный фрейм, полный информации (максимум) 100 статей.Однако они не содержат весь фактический текст статьи.Скорее они содержат что-то вроде следующего:

[1] "Tensions between China and the U.S. ratcheted up several notches over the weekend as Washington sent a warship into the disputed waters of the South China Sea. Meanwhile, Google dealt Huaweis smartphone business a crippling blow and an escalating trade war co… [+5173 chars]"

Есть ли способ извлечь оставшиеся 5173 символа.Я пытался прочитать документацию, но я не совсем уверен.

1 Ответ

1 голос
/ 21 мая 2019

Я не думаю, что это возможно, по крайней мере, с бесплатным планом. Если вы изучите документацию по номеру https://newsapi.org/docs/endpoints/everything в разделе Объект ответа, там будет написано:

содержание - строка

Неформатированное содержание статьи, где доступно. Это сокращено до 260 символов для пользователей плана разработчика.

Таким образом, все content ограничены только 260 символами. Тем не менее, test$url имеет ссылку на исходную статью, которую вы можете использовать для очистки всего контента, но поскольку он собирается из разных источников, я не думаю, что существует один автоматизированный способ сделать это.

...