Google Scholar с Matlab - PullRequest
       11

Google Scholar с Matlab

8 голосов
/ 23 сентября 2011

Я хотел бы получить некоторые данные из Google Scholar автоматически с помощью сценария matlab. В основном меня интересуют данные, такие как записи Bibtex от Google Scholar и функция прямого цитирования. Однако, похоже, что нет API для Google Scholar , есть ли способ автоматически получать библиографические данные из Google Scholar с помощью Matlab? Для этого уже есть какие-либо инструменты или код?

Ответы [ 2 ]

7 голосов
/ 28 сентября 2011

Слово предостережения я нашел, работая над этим проектом.

Существует причина, по которой Google Scholar не имеет API. Использование ботов для сбора данных от Google Scholar против EULA. Основная идея заключается в том, что любая программа, которая пытается взаимодействовать с Google Scholar, не может сделать это качественно иным способом, чем конечный пользователь. Другими словами, вы можете автоматически получать большие объемы данных. Хотя сценарий в ответе @ JustinPeel не обязательно нарушает условия, это может привести к огромному циклу.

Некоторые конкретные пункты из данного лицензионного соглашения :

Вы не должны и не должны позволять третьим лицам: ...

(i) прямо или косвенно генерировать запросы, показы или клики по результатам с помощью любых автоматических, обманных, мошеннических или других недопустимых средств (включая, помимо прочего, спам-клики, роботы, макропрограммы и интернет-агентов) );

...

(l) «сканировать», «паук», индексировать или любым другим способом хранить или кэшировать информацию, полученную от Сервиса (включая, но не ограничиваясь, Результаты или любую часть, их копию или производную);

Если вы посмотрите на Google Scholar robots.txt , вы также увидите, что никакие боты не разрешены.

Я слышал от некоторых коллег, что у вас будут проблемы, если вы попытаетесь обойти эту политику, что может привести к тому, что ваша лаборатория потеряет доступ к Google Scholar.

4 голосов
/ 23 сентября 2011

Если вы действительно хотите использовать Matlab для этого (что я на самом деле не советую), то вы можете взглянуть на несколько веб-проверок примеров, и этот код на самом деле уже получает некоторую информацию от Google Scholar.В принципе, просто хорошее 'matlab web scraping' и все готово.

Я лично рекомендовал бы использовать Python для этого, потому что Python лучше для общего программирования IMHO.Например, этот парень уже сделал нечто похожее на то, что вы хотите с Python.Однако, если вы знаете Matlab и у вас нет интереса / времени для Python, перейдите по ссылкам в первом абзаце.

...