искать копии данных со всего интернета - PullRequest
0 голосов
/ 15 декабря 2010

Мне нужна ваша помощь и совет как точка зрения разработчика, что, как люди работают, как сайты, такие как copyscape.com, в основном они ищут копии данных во всем Интернете, я хочу знать, как они ищут и составляют каталог всего веб-сайта изИнтернет такой же, как Google, так как Google делает индекс сайта из Интернета

, пожалуйста, сообщите мне, как они ищут данные по всему Интернету, как можно отслеживать каждый сайт в Интернете, как Google знает, что есть новыесайт в интернете, откуда сканеры знают, что новый веб-сайт запущен, так что вкратце я хочу знать, как я могу разработать сайт, на котором я могу искать копии данных по всему интернету без каких-либо сторонних рекомендаций api plzzzВы мне поможете

спасибо

1 Ответ

0 голосов
/ 15 декабря 2010

Сканеры Google не знают , когда запускается новый сайт. Обычно разработчики должны отправлять свои сайты в Google или получать входящие ссылки с проиндексированных сайтов.

И ни у кого нет копии всего Интернета. Есть сайты, которые не связаны и никогда не посещаются никаким сканером. Это называется глубокая сеть и, как правило, недоступно для сканеров.

Как они это делают? Я не знаю. Может быть, они индексируют популярные сайты, где текст, скорее всего, будет скопирован, например Blogger, ezinearticles и т. Д. И если они не находят текст на этих сайтах, они просто говорят его оригинал. Просто теория, и я, вероятно, ошибаюсь.

Me? Я бы, наверное, использовал Google. Просто скопируйте хороший кусок текста с проверяемого вами веб-сайта, а затем отфильтруйте результаты, полученные с исходного веб-сайта. И альт, у вас есть веб-сайт с точной фразой, которая предположительно скопирована.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...