Преобразование числовых и base64 строк для Google Scholar - PullRequest
0 голосов
/ 24 октября 2019

Вопрос

Google Scholar использует числовые идентификаторы (например, 6222258175386405304) и закодированные в base64 идентификаторы (например, uEmt9NfmWVYJ) взаимозаменяемо. Например, https://scholar.google.co.uk/scholar?cites=6222258175386405304 и https://scholar.google.co.uk/scholar?cites=uEmt9NfmWVYJ относятся к одной и той же веб-странице. Как я могу конвертировать между двумя форматами, чтобы я мог использовать уникальный идентификатор в моей библиографии?

Некоторые эксперименты

Я собрал несколько сопоставлений между числовыми и base64 идентификаторами здесь и сделали некоторый предварительный анализ:

  • Все представления base64 имеют 12 символов, принадлежащих к url-безопасной версии base64 , в частности, с использованием -_ вместо +/.
  • Последний символ с индексом 11, начинающимся с нуля, всегда равен J, а второй с последнего символа в индексе 10 происходит из ограниченной базы, содержащей AEIMQUYcgkosw048, то есть каждый четвертый символ в исходной базе (см. ниже для распределения символов). character distribution
  • Символ в позиции 9 представляется наиболее значимым, а символ 10 учитывает некоторую остаточную изменчивость, как показано ниже. Однако, по-видимому, существует некоторая периодичность в кодировании, и значения перекрываются, например, для символов AQgw. enter image description here

У меня не хватает идентификаторов, чтобы сопоставить заданную комбинацию символов 9 и 10 и продолжить расследование. Любые идеи будут высоко оценены.

...