Поиск в 1000 статьях, содержащих 300 000 слов в целом - PullRequest
0 голосов
/ 23 ноября 2011

Я строю базу данных, и я не уверен, что мне нужен какой-либо специальный инструмент индексирования, или достаточно просто индекса mysql.

В моей БД у меня будет около 1000 статей, каждая из которых содержит около 300 слов,Мне нужно будет найти статьи, которые содержат большинство слов из моего запроса (например: «гулять, гуляли, учиться, ходить в школу» - я хочу найти статьи, которые содержат эти слова чаще всего).

Статьибудет HTML.

Приложение будет использоваться несколькими людьми (10) одновременно = никаких дополнительных требований для сверхбыстрого ответа, я просто хочу, чтобы оно возвращалось в разумные сроки, например, 1 сек.

Итак, нужен ли мне какой-либо дополнительный инструмент для индексации (Apache Lucene / SOLR), или будет работать индекс mysql?

1 Ответ

1 голос
/ 23 ноября 2011

Я не могу сказать, что я эксперт MySql, так как имею дело с TSQL.Однако я бы сказал, что простой поиск по статьям может занять некоторое время, если они также включают HTML, поскольку необходимо учитывать теги, которые могут или не могут быть искажены в зависимости от того, как сохранен HTML.

Лично в таблице статей у меня будет дополнительный столбец, который будет содержать либо текстовую версию статьи, либо какой-то результат взвешенного алгоритма, который вставит в статью 30 наиболее распространенных слов, так что у вас будет многоаккуратнее и рационализируйте поле поиска для использования.

Но для 1000 статей это кажется очень излишним, и MySQL должен работать нормально, если все ваши запросы после <1s. </p>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...