Насколько я знаю, Google не использует куки. До недавнего времени он также не потреблял javascripts, но они начали делать это сейчас, хотя я не могу сказать, насколько хорошо это работает (вероятно, не хорошо). Единственное, что потребляют, - это текст и гиперссылки, кроме flash (от которого он получает только текст и ссылки).
Я чувствую, что используется следующее:
1) TLD / субдомен (регулярное выражение для определения языка из субдомена)
2) Заголовок HTTP для "Content-Language"
3) Проверка языка (у них есть переводчик, поэтому должен быть в состоянии сделать это)
4) Входящие ссылки с других TLD
5) Инструменты для веб-мастеров - там можно указать местоположение
Вероятно, лучший способ - это объединить все эти вещи и использовать какую-то систему подсчета очков, чтобы определить, какие документы (страницы / домены) основаны на языке, но это не получалось, пока Google не заставил людей использовать webmastertools. 1015 *
Следует иметь в виду, что большая часть трафика в сети направляется на несколько веб-сайтов, поэтому, если вы сможете скрыть их вручную, возможно, это облегчит жизнь.
Приветствия Ke