Вот объяснение прямо из источника (почти)
при мин 22: 03
Стоит посмотреть!
По сути, в соответствии с бывшим техническим директором Google Дугласом Мерриллом, это выглядит так:
1) Вы пишете слово (с ошибкой) в Google
2) Вы не можете найти то, что хотели (не нажимайте на результаты)
3) Вы понимаете, что написали слово с ошибкой, поэтому вы переписали слово в поле поиска.
4) Вы найдете то, что хотите (нажимаете на первые ссылки)
Этот шаблон, умноженный в миллионы раз, показывает, какие ошибки являются наиболее распространенными и каковы наиболее "общие" исправления.
Таким образом, Google может почти мгновенно предлагать исправление заклинаний на любом языке.
Также это означает, что если в одночасье все начнут произносить ночь, так как "nigth" Google предложит это слово.
EDIT
@ ThomasRutter: Дуглас описывает это как "статистическое машинное обучение".
Они знают, кто исправляет запрос, потому что они знают, какой запрос приходит от какого пользователя (с использованием файлов cookie)
Если пользователи выполняют запрос, и только 10% пользователей нажимают на результат, а 90% возвращаются и вводят другой запрос (с исправленным словом), и на этот раз 90% нажимают на результат, тогда они знают они нашли исправление.
Они также могут знать, являются ли они «связанными» запросами двух разных, потому что у них есть информация обо всех ссылках, которые они показывают.
Более того, теперь они включают контекст в проверку орфографии, поэтому они могут даже предлагать разные слова в зависимости от контекста.
См. демонстрационную версию волны Google (@ 44m 06s), которая показывает, как учитывается контекст для автоматического исправления орфографии.
Здесь объясняется, как работает обработка естественного языка.
И, наконец, потрясающая демонстрация того, что можно сделать, добавив в смесь автоматический машинный перевод (@ 1 ч. 12 м. 47 с).
Я добавил привязки минут и секунд к видео, чтобы перейти непосредственно к контенту, если они не работают, попробуйте перезагрузить страницу или прокрутить вручную до метки.