Как Copyscape использует Google API - PullRequest
0 голосов
/ 25 октября 2010

Как copyscape использует Google API? API ajax работает только в браузерах с включенным javascript, поэтому этот API не используется. API-интерфейс SOAP не используется, поскольку его нельзя использовать для коммерческого использования, и в день допускается не более 100 запросов.

Ответы [ 2 ]

2 голосов
/ 08 января 2011

Copyscape не использует Google API, вместо этого он использует поиск Google, он выполняет простой запрос curl для http://www.google.com/search?q=Search Ключевые слова здесь. Затем использует шаблоны регулярных выражений, чтобы найти заголовок, описания и ссылки и шоу для пользователя. Но это строго нарушает условия предоставления услуг Google, что также может привести к их бану, поэтому они используют прокси (или любой другой метод скрытия ip), чтобы скрыть свои ip для каждого поиска

1 голос
/ 18 октября 2013

Из своего FAQ они объяснили, как они это делают.

Где Copyscape получает свои результаты?

Copyscape использует Google и Yahoo!в качестве поставщиков поиска, на согласованных условиях.Эти поставщики поиска отправляют стандартные результаты поиска в Copyscape без какой-либо последующей обработки.Copyscape использует сложные запатентованные алгоритмы для изменения этих результатов поиска, чтобы обеспечить услугу проверки на плагиат.Любые расходы относятся к дополнительным услугам Copyscape, а не к предоставлению результатов поиска поставщиками поиска.

http://www.copyscape.com/faqs.php#providers

Анализ

CopyScape убедил нас на 100% в том, что у Google и Yahoo есть специальные соглашения.Я на 80% уверен, что CopyScape использует похожее решение для поиска (возможно, нераскрытое, но похожее) на Google Enterprise Search , предоставляемое поисковыми системами.

CopyScape не выполняет скрап-результаты, ноизвлечение форматов на основе API, таких как json и xml.Что хорошо для провайдеров (Google и Yahoo) для улучшения пропускной способности и времени отклика.Я придумал эту часть из-за моих предыдущих попыток перебора результатов поиска в Google через python с помощью поиска по фразе («поиск по фразе»).Ваш робот-очиститель не может и не знает способа обойти 503, когда Google ответит после нескольких сотен результатов (100 интервалов поиска или 50 интервалов поиска).

Очевидно, что они не выполняли некоторую автоматизацию браузера, а затем извлекали данные между веб-драйверами.и языки программирования, такие как Python.Я пытался сделать это, и это дало аналогичные результаты, за исключением того, что автоматический поисковик будет нуждаться в ручном вмешательстве для капчи, которая затем позволит вам продолжить анализ.Я также попытался использовать какой-то последний обход, который был исправлен всего за несколько минут / секунд.Конечно, они не делали никакого автоматического соскоба с поисковых систем, и если они вообще это делают.Это не будет работать в долгосрочной перспективе.

Как они используют свои особые привилегии?

Так как они окупились / имеют специальные условия, теперь они могут автоматизироваться с помощью специальных API,Они либо используют Google Search Enterprise и Yahoo Search Marketing Enterprise, либо имеют более специальное решение.

Список не используется

  • Обычные / бесплатные API (неконечно, если Google и Yahoo сделали это бесплатно для них)
  • Скреперы (Scrapy, Beautiful Soup, Selenium и т.д)

Использование списка

  • API уровня предприятия
  • Серверные сценарии Bash / Python-сценарии / Ruby-сценарии / PHP-сценарии для масштабируемости и тому подобное.

Надеемся

Я надеюсь, что кто-то из CopyScape может пропустить информацию, чтобы люди не догадывались, и у CopyScape должна быть большая конкуренция, так как есть только некоторые средства проверки на плагаризм, которые очень надежны и оценены (вероятно, только 1-10).

...