Слово предостережения я нашел, работая над этим проектом.
Существует причина, по которой Google Scholar не имеет API. Использование ботов для сбора данных от Google Scholar против EULA. Основная идея заключается в том, что любая программа, которая пытается взаимодействовать с Google Scholar, не может сделать это качественно иным способом, чем конечный пользователь. Другими словами, вы можете автоматически получать большие объемы данных. Хотя сценарий в ответе @ JustinPeel не обязательно нарушает условия, это может привести к огромному циклу.
Некоторые конкретные пункты из данного лицензионного соглашения :
Вы не должны и не должны позволять третьим лицам: ...
(i) прямо или косвенно генерировать запросы, показы или клики по результатам с помощью любых автоматических, обманных, мошеннических или других недопустимых средств (включая, помимо прочего, спам-клики, роботы, макропрограммы и интернет-агентов) );
...
(l) «сканировать», «паук», индексировать или любым другим способом хранить или кэшировать информацию, полученную от Сервиса (включая, но не ограничиваясь, Результаты или любую часть, их копию или производную);
Если вы посмотрите на Google Scholar robots.txt , вы также увидите, что никакие боты не разрешены.
Я слышал от некоторых коллег, что у вас будут проблемы, если вы попытаетесь обойти эту политику, что может привести к тому, что ваша лаборатория потеряет доступ к Google Scholar.