Вопрос
Google Scholar использует числовые идентификаторы (например, 6222258175386405304
) и закодированные в base64 идентификаторы (например, uEmt9NfmWVYJ
) взаимозаменяемо. Например, https://scholar.google.co.uk/scholar?cites=6222258175386405304 и https://scholar.google.co.uk/scholar?cites=uEmt9NfmWVYJ относятся к одной и той же веб-странице. Как я могу конвертировать между двумя форматами, чтобы я мог использовать уникальный идентификатор в моей библиографии?
Некоторые эксперименты
Я собрал несколько сопоставлений между числовыми и base64 идентификаторами здесь и сделали некоторый предварительный анализ:
- Все представления base64 имеют 12 символов, принадлежащих к url-безопасной версии base64 , в частности, с использованием
-_
вместо +/
. - Последний символ с индексом 11, начинающимся с нуля, всегда равен
J
, а второй с последнего символа в индексе 10 происходит из ограниченной базы, содержащей AEIMQUYcgkosw048
, то есть каждый четвертый символ в исходной базе (см. ниже для распределения символов). - Символ в позиции 9 представляется наиболее значимым, а символ 10 учитывает некоторую остаточную изменчивость, как показано ниже. Однако, по-видимому, существует некоторая периодичность в кодировании, и значения перекрываются, например, для символов
AQgw
.
У меня не хватает идентификаторов, чтобы сопоставить заданную комбинацию символов 9 и 10 и продолжить расследование. Любые идеи будут высоко оценены.