Большие сайты, показывающие меньше данных - PullRequest
3 голосов
/ 08 ноября 2010

Я слежу за большим сайтом и изучаю другие подобные сайты.В частности, я посмотрел на flickr и deviantart.Я заметил, что, хотя они говорят, что у них много данных, они отображают только их очень много.

Я предполагаю, что это из-за соображений производительности, но у кого-то есть представление о том, как они решаютчто показать и что не показать.Классический пример, зайдите на flickr, найдите тег.Обратите внимание на количество результатов, указанных только под ссылками страницы.Теперь посчитайте, какая это будет страница, перейдите на эту страницу.Вы найдете, что на этой странице нет данных.Фактически, в моем тесте flickr сказал, что было 5 500 000 результатов, но только 4 000.О чем это все?

Большие сайты становятся настолько большими, что им приходится начинать вывод старых данных в автономном режиме?Deviantart имеет функцию обратного вызова, но не совсем уверен, что это делает.

Любой ввод будет здорово!

Ответы [ 2 ]

1 голос
/ 08 ноября 2010

Это тип оптимизации производительности.Вам не нужно сканировать полную таблицу, если вы уже получили 4000 результатов.Пользователь не перейдет на страницу 3897. Когда flickr запускает поисковый запрос, он сначала находит 4000 результатов, а затем останавливается и не тратит время ЦП и IO на поиск бесполезных дополнительных результатов.

0 голосов
/ 08 ноября 2010

Я думаю, в некотором смысле это имеет смысл. При поиске, если пользователь не нажимает ни на одну ссылку до 400 страницы (при условии, что у каждой страницы есть 10 результатов), то либо пользователь дебил, либо сканер каким-то образом участвует.

Если серьезно, если до 40 страницы не будет получен благоприятный результат, заинтересованной компании, возможно, придется уволить всю свою поисковую команду и принять Lucene или Sphinx :)

Я имею в виду, что им будет лучше пытаться улучшить точность поиска, чем бороться с проблемами инфраструктуры, пытаясь показать более 4000 результатов поиска.

...