Из своего FAQ они объяснили, как они это делают.
Где Copyscape получает свои результаты?
Copyscape использует Google и Yahoo!в качестве поставщиков поиска, на согласованных условиях.Эти поставщики поиска отправляют стандартные результаты поиска в Copyscape без какой-либо последующей обработки.Copyscape использует сложные запатентованные алгоритмы для изменения этих результатов поиска, чтобы обеспечить услугу проверки на плагиат.Любые расходы относятся к дополнительным услугам Copyscape, а не к предоставлению результатов поиска поставщиками поиска.
http://www.copyscape.com/faqs.php#providers
Анализ
CopyScape убедил нас на 100% в том, что у Google и Yahoo есть специальные соглашения.Я на 80% уверен, что CopyScape использует похожее решение для поиска (возможно, нераскрытое, но похожее) на Google Enterprise Search , предоставляемое поисковыми системами.
CopyScape не выполняет скрап-результаты, ноизвлечение форматов на основе API, таких как json и xml.Что хорошо для провайдеров (Google и Yahoo) для улучшения пропускной способности и времени отклика.Я придумал эту часть из-за моих предыдущих попыток перебора результатов поиска в Google через python с помощью поиска по фразе («поиск по фразе»).Ваш робот-очиститель не может и не знает способа обойти 503, когда Google ответит после нескольких сотен результатов (100 интервалов поиска или 50 интервалов поиска).
Очевидно, что они не выполняли некоторую автоматизацию браузера, а затем извлекали данные между веб-драйверами.и языки программирования, такие как Python.Я пытался сделать это, и это дало аналогичные результаты, за исключением того, что автоматический поисковик будет нуждаться в ручном вмешательстве для капчи, которая затем позволит вам продолжить анализ.Я также попытался использовать какой-то последний обход, который был исправлен всего за несколько минут / секунд.Конечно, они не делали никакого автоматического соскоба с поисковых систем, и если они вообще это делают.Это не будет работать в долгосрочной перспективе.
Как они используют свои особые привилегии?
Так как они окупились / имеют специальные условия, теперь они могут автоматизироваться с помощью специальных API,Они либо используют Google Search Enterprise и Yahoo Search Marketing Enterprise, либо имеют более специальное решение.
Список не используется
- Обычные / бесплатные API (неконечно, если Google и Yahoo сделали это бесплатно для них)
- Скреперы (Scrapy, Beautiful Soup, Selenium и т.д)
Использование списка
- API уровня предприятия
- Серверные сценарии Bash / Python-сценарии / Ruby-сценарии / PHP-сценарии для масштабируемости и тому подобное.
Надеемся
Я надеюсь, что кто-то из CopyScape может пропустить информацию, чтобы люди не догадывались, и у CopyScape должна быть большая конкуренция, так как есть только некоторые средства проверки на плагаризм, которые очень надежны и оценены (вероятно, только 1-10).