Сканирующая система контроля версий - PullRequest
0 голосов
/ 11 января 2012

Я хочу отсканировать какой-нибудь проект на GitHub, скажем, я хочу отсканировать исходный код, созданный конкретными авторами и бла бла бла.Есть ли какой-нибудь плагин для Nutch для сканирования этой информации или лучший способ сканирования целых репозиториев.

Я даже хочу сканировать версию общедоступной системы управления версиями, используя Nutch.Есть ли плагин для того же.

Ответы [ 2 ]

2 голосов
/ 11 января 2012

Github поставляется с JSON API.Используйте API хранилища, чтобы получить список хранилищ для конкретного пользователя, а затем клонировать их.Оболочка должна состоять из нескольких строк.

См. Документацию API здесь .

1 голос
/ 11 января 2012

Nutch - поисковая система, созданная Apache на основе бэкэнда Lucene.

Взгляните на файл github robots.txt: https://github.com/robots.txt

Помимо определенных движков (например, Google), он говорит:

User-agent: *
Disallow: /

Поэтому вы не можете сканировать GitHub с помощью Nutch.

Ползать github с помощью поисковой системы кажется плохой идеей. Будет много похожих страниц, которые вы будете загружать без причины. Что не так с поиском в GitHub?

Пожалуйста, попробуйте обобщить ваш вопрос. Чего ты надеешься достичь, ползти на github с Nutch? Какие поиски вы хотите выполнить?

...