выполнение полнотекстового поиска на огромном количестве документов - PullRequest
0 голосов
/ 29 января 2010

Предположим, у вас есть огромное количество документов, несколько миллионов и еще больше. Предположим, вам нужно опубликовать их на веб-сайте с сотнями тысяч ежедневных просмотров страниц, и предположим, что вы должны позволить посетителям выполнять поиск по всем документам. Каков наилучший способ хранения / извлечения документов? И выполнять поиск по ним?

В настоящее время система, о которой я говорю, использует swish-e для создания индексов для статических html-файлов. Эти файлы предоставляются пользователям как статический контент.

Это хороший способ?

Каково лучшее решение между базой данных для хранения и поиска содержимого (MySQL) и хранения содержимого в статических файлах и использования инструмента для их индексации и выполнения поиска (Swish-e)?

1 Ответ

1 голос
/ 29 января 2010

Если вы можете правильно проиндексировать свой сайт, попробуйте установить Поиск по сайту Google и покончить с этим.

Если вы хотите иметь собственный поиск, рассмотрите возможность использования Lucene . ИМО, он намного превосходит полнотекстовый поиск MySQL.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...