@ поражен
РЕДАКТИРОВАНИЕ: исправлено несколько орфографических ошибок 20110310
Как эти сайты собирают все данные - questionhub, bigresource ...
Вот очень общий набросок того, что, вероятно, происходит в фоновом режиме на веб-сайте, например questionhub.com
Программа Spider (Google "Spider Program", чтобы узнать больше)
а. настроен для начала чтения веб-страниц на stackoverflow.com (например)
б. запустите программу, чтобы перейти на домашнюю страницу stackoverflow.com и начать посещать все ссылки, найденные на этих страницах.
с. Возвращает данные HTML со всех этих страниц
Индексная программа поиска
Считывает данные HTML, возвращаемые пауком, и создает поисковый индекс.
Хранение найденных слов и URL-адреса этих слов, найденных в
Веб-страница интерфейса пользователя
Предоставляет многофункциональный пользовательский интерфейс, позволяющий выполнять поиск на сайтах, которые были выделены.
Законно ли показывать данные в рамке, как это делают большие ресурсы?
Чтобы быть техническим, "все зависит"; -)
Обычно веб-сайты хотят, чтобы были видны в Google, так почему бы не использовать другие поисковые системы.
Так же, как Google отображает часть текста, который был найден при просмотре сайта,
Questionhub.com (или другие) решили показать больше текста, найденного на исходной странице,
возможно, сохраняя форматирование, которое было в оригинальном HTML, ИЛИ изменяя форматирование на
соответствовать их стандартному визуальному стилю.
Удаленный сайт может «запросить», чтобы шпионы НЕ проходили через некоторые / все свои веб-страницы.
добавив правило в известный файл robots.txt. Пауки не
должен соблюдать robots.txt, но бдительный сайт будет отслеживать IP-адреса
шпионов, которые не соблюдают свой файл robots.txt, а затем блокируют этот IP-адрес
смотреть на что-нибудь на их сайте. Вы можете найти много информации о файле robots.txt здесь на stackoverflow ИЛИ, запустив запрос в Google.
Существует несколько отраслей (помимо Google), построенных на основе того, что вы спрашиваете. В переполнении стека есть теги для поисковика, поиска; прочитайте некоторые из этих вопросов / ответов. Lucene / Solr являются компонентами поисковой системы с открытым исходным кодом. Есть сопутствующий паук с открытым исходным кодом, но имя ускользает от меня прямо сейчас. Удачи.
Надеюсь, это поможет.
P.S. поскольку вы выглядите новым пользователем, если вы получите ответ, который поможет вам, не забудьте пометить его как принятый, или дать ему + (или -) как полезный ответ. Это касается и других ваших постов здесь; -)