Google Bot информация? - PullRequest
       9

Google Bot информация?

0 голосов
/ 14 апреля 2010

Кто-нибудь знает более подробную информацию о веб-сканере Google (он же GoogleBot)? Мне было любопытно, о чем это было написано (я сам сделал несколько сканеров и собираюсь сделать еще один) и разбирает ли изображения и тому подобное. Я предполагаю, что это происходит где-то вдоль линии, потому что изображения в images.google.com все изменяются. Меня также не удивит, если все это будет написано на Python, и если они будут использовать все свои собственные библиотеки почти для всего, включая разбор html / image / pdf. Может быть, они этого не делают. Может быть, все это написано на C / C ++. Заранее спасибо -

Ответы [ 3 ]

1 голос
/ 14 апреля 2010

Вы можете найти немного о том, как работает googlebot здесь:

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=158587

например, инструмент "Получить как googlebot" позволяет вам видеть страницу так, как ее видит робот Google.

1 голос
/ 15 апреля 2010

Скорее всего, сканер написан на C или C ++, по крайней мере, сканер backrub был написан на одном из них.

Помните, что сканер только делает снимок страницы, а затем сохраняет его во временной базе данных для последующей обработки. Индексирование и другие прикрепленные алгоритмы извлекут данные, например ссылки на изображения.

0 голосов
/ 14 апреля 2010

Официально разрешенными языками в Google, как мне кажется, являются Python / C ++ / Java.

Бот, вероятно, использует все 3 для разных задач.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...