Я пытаюсь получить различные метрики репозитория Github в Github Archive через Big Query ( документ здесь ). Однако, когда я пытаюсь подсчитать количество вилок, количество, которое я получаю, сильно отличается от количества вилок, указанного в пользовательском интерфейсе Github. Например, когда я запускаю этот скрипт sql:
SELECT repo.url,repo.name , COUNT(*) fork_count,
FROM [githubarchive:year.2011],
[githubarchive:year.2012],
[githubarchive:year.2013],
[githubarchive:year.2014],
[githubarchive:year.2015],
[githubarchive:year.2016],
[githubarchive:year.2017],
[githubarchive:year.2018],
[githubarchive:month.201901]
WHERE type='ForkEvent'
and repo.url like 'https://github.com/python/cpython'
GROUP BY 1,2
Я получаю результат:
Row repo_url repo_name fork_count
1 https://github.com/python/cpython cpython 177
Однако, когда я перехожу на URL 'https://github.com/python/cpython', я вижу, что есть 8198 вилок. В чем причина этого несоответствия?
EDIT:
Фелипе указал ниже, что для одного репо может быть несколько URL.
Однако даже при наличии нескольких URL-адресов число не совпадало с пользовательским интерфейсом, и на этот раз оно было значительно больше номера пользовательского интерфейса. Есть ли способ получить точное совпадение?