Как загрузить результаты поиска на Google scholar, используя r? - PullRequest
17 голосов
/ 15 февраля 2011

Я хотел бы извлечь первые 100 результатов (скажем) из поиска Google Scholar, используя R. Кто-нибудь знает, как это сделать?

Если быть точным, мне просто нужно название статьи, авторов и количество цитирований.

Ps Это будет законно?

Ответы [ 5 ]

4 голосов
/ 09 ноября 2011

обратите внимание на обновленный пост биобакета:

http://thebiobucket.blogspot.com/2011/11/r-function-google-scholar-webscraper.html

4 голосов
/ 15 февраля 2011

Существуют некоторые скребки Python и Perl, которые вы можете адаптировать, связанные по адресу http://bmb -common.blogspot.com / 2011/02 / do-google-scholar-suck-or-am -i-just.html

3 голосов
/ 15 февраля 2011

Вы можете определенно извлечь HTML-содержимое страницы, используя RCurl, и проанализировать их, используя RXML, как предложено Btibert3.Единственная проблема, с которой вы можете столкнуться, заключается в том, что Google не позволит вам выполнять запросы «роботизированным» способом.После 200 запросов в Google за короткий промежуток времени результаты больше не будут возвращаться.Может быть, с Google Scholar все по-другому, но я сомневаюсь в этом ...

3 голосов
/ 15 февраля 2011

Я не могу говорить о законности вашей задачи, но есть несколько способов сделать это. Хотя я не силен в XPath, это может быть лучшим способом. Я считаю, что вы можете использовать пакет XML для получения содержимого страницы и использовать XPath для извлечения данных нужных вам элементов.

Например, я использую Chrome для браузера, и когда я осматривал страницу с помощью Инструментов разработчика, там действительно была структура страницы с данными, «скрытыми» внутри различных тегов, которые вы сможете использовать. действительно легко с помощью XPath.

Проверьте эту ссылку для примера использования XPath.

HTH и удачи

1 голос
/ 05 ноября 2011

Недавно было опубликовано решение:

http://thebiobucket.blogspot.com/2011/11/visually-examine-google-scholar-search.html

...