Question

Есть ли способ сбора веб-контента, чтобы использовать его в поисковой системе без прохождения фазы веб-сканирования? Есть ли альтернатива сканированию в Интернете?

Спасибо

T.J. Crowder · Answer 1 · 23 ноября 2010

Нет, для сбора контента вы должны ... собирать контент. : -)

mt3 · Answer 2 · 01 февраля 2011

Да (и вроде нет).

:)

Вы можете загрузить существующие дампы данных с различных веб-сайтов (википедии, stackoverflow и т. Д.) И построить частичный индекс таким образом. Очевидно, это не будет полный индекс Интернета.

Вы также можете использовать мета-поиск для создания своей поисковой системы. Здесь вы используете API других поисковых систем и используете свои результаты поиска в качестве основы для своего индекса. Примеры включают citosearch и opensearch . duckduckgo использует API босса Yahoo (а теперь Yahoo использует Bing ...) как часть своей поисковой системы.

Существуют также API-интерфейсы потоковой передачи в реальном времени, которые можно использовать вместо сканирования в Интернете. Посмотрите на datasift в качестве примера. Существует гораздо больше ресурсов, которые вы можете разумно использовать и избежать / минимизировать сканирование.

Varun Pathak · Answer 3 · 06 июня 2012

Если вы хотите получать последнюю информацию на страницах, вы можете использовать что-то вроде протокола pubsubhubbub для получения push-уведомлений для подписанных ссылок.Или используйте платные сервисы, такие как superfeedr , которые используют тот же протокол.

Upul Bandara · Answer 4 · 23 ноября 2010

прямо или косвенно вы должны сканировать сеть, чтобы получить контент.

Calmarius · Answer 5 · 10 июня 2013

Ну, если вы не хотите сканировать, вы можете использовать вики-подобный подход, при котором пользователи могут отправлять ссылки на сайты (с заголовком, описанием и тегами). Таким образом, совместная коллекция ссылок может быть построена.

Чтобы избежать спама, может быть задействована система +/-, чтобы голосовать за полезные сайты или теги вверх, а за бесполезные - вниз.

Чтобы избежать массового голосования спамеров, вы можете взвешивать голоса по репутации пользователя.

Репутацию пользователя можно получить, представив полезные сайты. Или как-то отслеживая шаблоны использования.

И с учетом других моделей злоупотреблений.

Ну, я думаю, вы поняли.

Поскольку спаммеры постепенно обнаруживают слабые стороны традиционных поисковых систем (см. Google бомба , сайты для сбора контента и т. Д.), Может работать подход, основанный на сообществе. Но он сильно пострадал бы от эффекта холодного старта , а когда сообщество маленькое, систему легко злоупотреблять и отравлять ...

По крайней мере, Wikipedia и Stack Exchange пока не спамятся до бесполезных уровней ...

PS: http://xkcd.com/810/

Поисковая система без ползания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поисковая система без ползания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы