Итак, я пытаюсь выполнить несколько запросов, используя bigquery-public-data:github_repos.files
, который был обновлен до May 25, 2018, 2:07:03 AM
, теоретически он содержит все данные о файлах из github - как сказано в описании таблицы:
Метаданные файлов для всех файлов в HEAD.
Присоединитесь к [bigquery-public-data: github_repos.contents] в столбцах идентификаторов для поиска текста.
ИтакУ меня есть этот инструмент под названием goreleaser, чтобы использовать его, пользователи создают файл с именем .goreleaser.yaml.Чтобы иметь представление о том, сколько репозиториев его используют, я использовал поиск по github, что-то вроде этого поиска filename:goreleaser extension:yaml extension:yml path:/
, вы можете увидеть результаты по этой ссылке.
Это показывает 1k + результаты, иполучает результаты для всех этих возможных имен:
goreleaser.yml
goreleaser.yaml
.goreleaser.yml
.goreleaser.yaml
Проблема в том, что github показывает счетчик результатов в 1k, но вы можете разбивать на страницы только до 1k или около того.Я написал некоторый код на Go, используя API и т. Д., Вы видите это здесь.
В любом случае, я пытался сделать что-то похожее с bigquery, вот моя глупая попытка:
SELECT repo_name, path
FROM [bigquery-public-data:github_repos.files]
WHERE REGEXP_MATCH(path, r'\.?goreleaser.ya?ml')
Этобудет включать в себя инструменты, которые не продаются, но это не проблема.Проблема заключается в том, что даже с инструментами, выпущенными вендором, он показывает только ~ 500 результатов, а не 1 КБ.
PS: я также пробовал упрощенную версию, соответствующую path
с LIKE
и т. Д., Те же результаты.
Так что, либо я делаю что-то ужасно неправильное, эта таблица не включает в себя все данные, как говорится, либо поиск в github обманывает меня.
Любой совет?
Спасибо!