Как запросить размер файла github в Google BigQuery? - PullRequest
1 голос
/ 26 мая 2020

Мне нужно получить статистику размеров файлов в репозитории с открытым исходным кодом github. Например, количество файлов размером менее 1M составляет XXX или 70% от общего числа файлов.

Я обнаружил, что файлы в [bigquery-publi c -data.github_repos.contents] меньше, чем 1M (правда, не знаю почему). Поэтому я решил выбрать [githubarchive: month.202005] или другой месяц.

Но я не нашел поле "размер файла" в [githubarchive: month.202005]. Я хотел бы спросить, как узнать размер файла в [githubarchive: month.202005]? Затем я могу использовать метод в this , чтобы получить результаты по размеру ??

Я новичок в bigquery, и вопрос может быть глупым. Но мне действительно нужно решение. Или есть статистика или литература, которую я могу процитировать, в которой есть статистика размеров файлов на github. [bigquery-publi c -data.github_repos.contents] не упоминает, почему были выбраны только файлы размером менее 1 МБ.

1 Ответ

1 голос
/ 26 мая 2020

Я думаю, у вас неправильная интерпретация, поскольку таблица bigquery-public-data.github_repos.content publi c содержит данные текстового файла в столбце content для элементов размером менее 1 МБ в ветке HEAD, для других вы обнаружите только null значения :

SELECT id,size,content  FROM `bigquery-public-data.github_repos.contents` where size > 1048576 LIMIT 100

Следовательно, вы не ограничены анализом инвентаря файлов в этом случае, если я правильно понимаю вашу точку зрения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...