Сканеры Google не знают , когда запускается новый сайт. Обычно разработчики должны отправлять свои сайты в Google или получать входящие ссылки с проиндексированных сайтов.
И ни у кого нет копии всего Интернета. Есть сайты, которые не связаны и никогда не посещаются никаким сканером. Это называется глубокая сеть и, как правило, недоступно для сканеров.
Как они это делают? Я не знаю. Может быть, они индексируют популярные сайты, где текст, скорее всего, будет скопирован, например Blogger, ezinearticles и т. Д. И если они не находят текст на этих сайтах, они просто говорят его оригинал. Просто теория, и я, вероятно, ошибаюсь.
Me? Я бы, наверное, использовал Google. Просто скопируйте хороший кусок текста с проверяемого вами веб-сайта, а затем отфильтруйте результаты, полученные с исходного веб-сайта. И альт, у вас есть веб-сайт с точной фразой, которая предположительно скопирована.