Поисковая система без ползания? - PullRequest
3 голосов
/ 23 ноября 2010

Есть ли способ сбора веб-контента, чтобы использовать его в поисковой системе без прохождения фазы веб-сканирования? Есть ли альтернатива сканированию в Интернете?

Спасибо

Ответы [ 5 ]

5 голосов
/ 23 ноября 2010

Нет, для сбора контента вы должны ... собирать контент. : -)

3 голосов
/ 01 февраля 2011

Да (и вроде нет).

:)

Вы можете загрузить существующие дампы данных с различных веб-сайтов (википедии, stackoverflow и т. Д.) И построить частичный индекс таким образом. Очевидно, это не будет полный индекс Интернета.

Вы также можете использовать мета-поиск для создания своей поисковой системы. Здесь вы используете API других поисковых систем и используете свои результаты поиска в качестве основы для своего индекса. Примеры включают citosearch и opensearch . duckduckgo использует API босса Yahoo (а теперь Yahoo использует Bing ...) как часть своей поисковой системы.

Существуют также API-интерфейсы потоковой передачи в реальном времени, которые можно использовать вместо сканирования в Интернете. Посмотрите на datasift в качестве примера. Существует гораздо больше ресурсов, которые вы можете разумно использовать и избежать / минимизировать сканирование.

2 голосов
/ 06 июня 2012

Если вы хотите получать последнюю информацию на страницах, вы можете использовать что-то вроде протокола pubsubhubbub для получения push-уведомлений для подписанных ссылок.Или используйте платные сервисы, такие как superfeedr , которые используют тот же протокол.

1 голос
/ 23 ноября 2010

прямо или косвенно вы должны сканировать сеть, чтобы получить контент.

0 голосов
/ 10 июня 2013

Ну, если вы не хотите сканировать, вы можете использовать вики-подобный подход, при котором пользователи могут отправлять ссылки на сайты (с заголовком, описанием и тегами). Таким образом, совместная коллекция ссылок может быть построена.

Чтобы избежать спама, может быть задействована система +/-, чтобы голосовать за полезные сайты или теги вверх, а за бесполезные - вниз.

Чтобы избежать массового голосования спамеров, вы можете взвешивать голоса по репутации пользователя.

Репутацию пользователя можно получить, представив полезные сайты. Или как-то отслеживая шаблоны использования.

И с учетом других моделей злоупотреблений.

Ну, я думаю, вы поняли.

Поскольку спаммеры постепенно обнаруживают слабые стороны традиционных поисковых систем (см. Google бомба , сайты для сбора контента и т. Д.), Может работать подход, основанный на сообществе. Но он сильно пострадал бы от эффекта холодного старта , а когда сообщество маленькое, систему легко злоупотреблять и отравлять ...

По крайней мере, Wikipedia и Stack Exchange пока не спамятся до бесполезных уровней ...

PS: http://xkcd.com/810/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...